dobreblogy.cz majú stále problém s korektným preberaním obsahu

Sľúbil som, že dnes objasním moje výhrady voči šablóne na stránke webového agregátora dobreblogy.cz A odhalím fintu fň.

Napriek výzve, nikto z uvedeného webu ma nekontaktoval a ani neodpovedal na moju výzvu poslanú 2x cez kontaktný formulár. Preto považujem za oprávnené verejne vyjadriť nechuť nad týmto webom. A výhrady, že na jednej zo svojich podstránok kradnú obsahu webom, ktoré v dobrej viere poskytujú RSS s kompletným článkom pre účely férového použitia.

Zlodejinou obsahu nazývam stav, kedy na podstránke, kde sa zobrazuje plný text článku z RSS kanála, nie je žiaden spätný odkaz na originálny článok. Takáto forma je rovnako v rozpore s dobrými mravmi pri citovaní cudzieho obsahu.

Čo ma vedie k domnienke, že toto neodkazovanie je dokonca vedomé? V zdrojovom kóde na konci prebraného obsahu sa nachádza kód:

<li class="last leech_link_full_article">
<a href="http://www.piki.zh4a.sk/index.php/
2008/01/30/hrabu-na-vasom-webe-marketaci-zadarmo/"
 class="leech_link_full_article"></a></li>

Všimnite si tag <a></a> bez anchor textu. Kto pracoval niekedy s nejakým hromadne vyrábaným CMS, vie, ako takýto stav vznikne.

Podobne ako ja, dopadáva pravidene napríklad aj marigold.

Žiaľ, keďže nikto z webu dobreblogy.cz na moje žiadosti o vyradenie môjho obsahu neodpovedá, som v situácii, kedy zverejnenie zlodejských praktík je jediná reálna možnosť, ako upozorniť na nechutné správanie sa webu dobreblogy.cz

Ak na zalinkovanej stránke vidíte odkazy na originál, tak to sú odkazy obsiahnuté v RSS syndikovanom obsahu odo mňa. Vďaka tejto malej úprave som prišiel na to, že web dobreblogy.cz by mi mali posielať signifikantne oveľa viac čitateľov ako je aktuálna skutočnosť.

Finta na nepoctivé preberanie RSS kanála

Ak vám niekto preberá obsah a neuvedie odkaz na zdroj, veľmi ťažko a náhodne sa dozviete o takomto zlodejovi. Občas sa preto oplatí zmeniť zvyky a doplniť svoj RSS kanál o spätný odkaz.

Bežím na WordPresse, takže som zmodifikoval súbor feed-rss2.php (v adresári ../wp-include) tak, že som vytváranie tagu <content:encoded> obohatil aj o spätný odkaz. To spôsobí, že od momentu modifikácie sa do každého článku v RSS kanály dostane „pätička“ so spätným odkazom. Keďže preberajúci netuší, že sa čokoľvek zmenilo, preberá tak ako je zvyknutý. A vy len kontrolujete zmeny v štruktúre referrerov v štatistikách návštevnosti. Neuškodí, vyzvať čitateľa k akcii, napríklad ja upozorňuje na anketu.

Proti tejto finte je len malá ochrana zo strany nepoctivcov. Jednak máte v rukách dĺžku pripájaného textu, takže ak orežú koniec môžu pripraviť čitateľov o pointu. Druhak, šikovnejší, môžu článok pred vložením do RSS kanála rozrezať na polovicu a vložiť spätný odkaz náhodne.

Nie som taký šikovný ako by sa zdalo. Prichytenie webu dobreblogy.cz je len náhodný produkt. Pôvodne som sa inšpiroval nápadom od Patrica, ktorý popísal v článku How to foil scrapers on your blog. Hovoril som si, že to vyskúšam, lebo už dávno pokukujem po možnostiach ako z RSS vyťažiť maximum. Napríklad upozorniť notorických čítačkárov, že na titulke je nová anketa, že na titulke je vyhlásená súťaž, o ktorej sa dozvedia len tí, čo na web skutočne prídu a tak podobne. Lebo je známym paradoxom, že poskytovanie plných RSS privedie viac čitateľov na zdrojový web ako perexové RSS. Viac o tom často píše Problogger. Začať môžete trebárs tu.Teda, pokiaľ ho niekto nekradne bez odkazu na originál.

Toto riešenie je elegantné aj preto, že na originálnom webe sa s originálnym textom nemanipuluje, takže štandardných čitateľov nemätiete nelogickými odkazmi domov a upozorneniami na obsah, ktorý vidia o 10 pixelov vedľa textu. A čo sa týka slušných čitateľov, v RSS čítačkách prilepený text vyzerá ako pätička, ktorá je už v moderných anglických weboch pomaly štandardom.

5 komentárov pri “dobreblogy.cz majú stále problém s korektným preberaním obsahu

  1. Rozmyslam, ze kedze preberaju takto cely obsah, co tak urobit XSS hack?

    alert(„Tento web kradne!“);

    na zaciatok v tele clanku bude stacit. Neskor je mozne rozsirit o AJAX na komunikaciu s uzivatelom 🙂

  2. Ak mas k dispozicii logy od webhostingu, mal by si byt schopny zistit IP, z ktorej dobreblogy.cz tahaju tvoj feed a potom ich uz len cez htaccess bloknut.

  3. Alebo este lepsie – vytapetuj ich 😉 Pristup z ich IP na tvoj regularny feed budes pomocou htaccess presmerovavat na falosny feed, v ktorom budes kazdu hodinu generovat do item text ako spominal dusoft: „Tento web kradne + odkaz na tento tvoj clanok“ (ten falosny feed ale musi mat kazdy item s jedinecnym title, link a pubdate)

  4. Chlapi, vy ste mali byť audítori. Len my dokážeme vymyslieť 20 spôsobov rozbitia akéhokoľvek systému.

Komentáre sú uzavreté.