Siteliner – nástroj pro zjištění duplikátního obsahu napříč webovým serverem

Na stránkách známého nástroje CopyScape, který pomáhá odhalovat duplikátní texty pro zadané webové stránky, se před časem objevil odkaz na nový zajímavý projekt od stejných autorů. Jedná se o nástroj, který hledá duplicity napříč zadaným webem a přidává další zajímavé vychytávky.

Úvodní strana Siteliner.com je strohá, autoři se zjevně inspirovali u jiného, jen o málo slavnějšího projektu ze Silicon Valley.

Siteliner - úvodní stránka

Po zadání URL adresy a stisknutí tlačítka GO začne Siteliner postupně procházet jednotlivé stránky webu a porovnávat navzájem obsah. Celý proces trvá v řádu desítek sekund, vše je závislé na celkovém počtu stránek na webu. Siteliner zastaví procházení, jakmile překročí limit 500 stránek na doménu.

Hlavní stránka reportu obsahuje celkem 5 částí: přehled, seznam zkoumaných adres, duplikátní stránky, nefunkční odkazy a stránky, které Siteliner z nějakého důvodu přeskočil.

Duplikátní obsah

Nejzajímavější stránkou je beze sporu duplicitní obsah (Duplicate content). Zde se nachází seznam stránek, na kterých se nachází duplicitní obsah. Seznam je řazený primárně podle množství duplicitního obsahu. Za duplicitní se v tomto případě považuje po sobě jdoucí sekvence slov o minimální délce 2. V tabulce je uveden jak celkový počet duplicitních slov na stránce, tak i procentuální vyjádření poměru duplicit k celkovému obsahu stránky. Na příkladu biooko.net je vidět, že jsou zde vysloveně duplikátní stránky (Nejvyssi nabidka / The Best Offer – 94%). To je způsobeno strukturou webu, kdy pro každý film existují dvě URL, česká a originální, na kterých je ten samý popis filmu.

Siteliner - přehled

Po kliknutí na odkaz se potom zobrazí detailní přehled duplicit. V levé části jsou vyjmenované stránky, na kterých se duplikáty nachází, navíc je možné po kliknutí zobrazit pouze jednotlivý duplikátní obsah.

Siteliner - detail stránky

Nefunkční a vynechané odkazy

V záložce Broken links je možné najít stránky, na kterých se nacházejí odkazy, které jsou nějakým způsobem vadné. Tak jako v případě detailu stránky, i zde je po kliknutí na detail zobrazena pozice vadného odkazu. Siteliner má poměrně krátký limit na odezvu stránky, takže se v tomto seznamu mohou objevit i funkční odkazy, které ale vedou na stránky, které se načítají déle než 10 vteřin. I to je ale podnět k zamyšlení, zda není možné načítání těchto stránek nějak urychlit.

Siteliner - nefunkční odkazy

Záložka Skipped pages obsahuje víceméně opačnou tabulku k Broken Links, myšleno tak, že zde jsou vadné odkazy a v detailu je seznam stránek, na kterých se tento odkaz nachází.

Závěrem

Protože je celý projekt ve stádiu beta, je počet procházených URL omezen na 500. To do značné míry limituje využití nástroje ke komerčním účelům. Na druhou stranu, prozkoumání pěti set stránek může napovědět některé globální problémy. Rozhodně stojí za to nový nástroj vyzkoušet – zvlášť, když je zdarma.

Máte chuť si o kvalitativním měření obsahu webu popovídat? Zastavte se u nás na výborný čaj nebo kávu.

 

Datum zveřejnění: 26. 8. 2014
Autor: Vít Novotný