Cesta do historie internetu

Počítač, laptop, notobook - Foto: Fotobanka Pixabay, CC0 Public domain

Počítač, laptop, notobookFoto: Fotobanka Pixabay, CC0 Public domain

Stalo se vám někdy, že jste potřebovali dohledat informace na webové stránce, která už neexistuje nebo jejíž původní obsah byl smazán při aktualizaci? Jedním z řešení je využití webového archivu Wayback Machine, který spravuje organizace Internet Archive.


Internet Archive je nezisková organizace sídlící v San Franciscu. Cílem činnosti neziskovky, která byla založena v roce 1996, je archivace a zpřístupnění kulturních artefaktů, které se nachází v digitální podobě. V databázi jsou samozřejmě zpřístupněny jen ty materiály, které nejsou chráněny autorskými právy. Internetový archiv obsahuje rozsáhlou databázi webových stránek, videí, audionahrávek, knih, obrázků, najdete na něm i staré konzolové hry, svobodný software a další. Budoucí žurnalisty by mohla zaujmout například samostatná databáze informací týkajících se války v Iráku či zpřístupnění části sbírek knihovny Kongresu USA a dalších zámořských nebo evropských knihoven. Samotný webový archiv Wayback Machine obsahoval v druhé polovině roku 2015 neuvěřitelných 439 miliard stránek a 23 petabytů dat. Financování archivu probíhá formou darů, přispět je možné i formou bitcoinů. 

Web Českého rozhlasu z roku 2000 - Foto:  Český rozhlas

Web Českého rozhlasu z roku 2000Foto:  Český rozhlas

Wayback Machine
Archiv The Wayback Machine představuje nejstarší službu nabízenou společností Internet Archive. Do této databáze se v časových rozestupech archivuje obsah webových stránek z celého internetu. Databáze samozřejmě uchovává pouze ty stránky, které jsou veřejně přístupné, nejsou chráněny heslem a proti kopírování. Pomocí Wayback Machine je tedy možné dostat se ke starým, již neexistujícím stránkám, dohledat podobu konkrétního webu před aktualizací a sledovat jeho proměny v čase. Stránky jsou někdy ukládány pouze v měsíčních nebo týdenních intervalech, služba se tedy spíše hodí pro vyhledávání obsahu stránek, které nejsou aktualizovány denně. 

Web Českého rozhlasu Ostrava z roku 1999 - Foto: Český rozhlas

Web Českého rozhlasu Ostrava z roku 1999Foto: Český rozhlas

Použití archivu je intuitivní, pro vyhledání stačí pouze znát URL webu, který hledáte. Uložené stránky mají aktivní linky, je tedy možné se „proklikat“ i na weby, jejichž přesnou adresu neznáme. A využití? Nám se pomocí webového archivu podařilo nalézt některé staré, již neaktuální rekordy v Guinnessově knize rekordů, podívali jsme se na stará loga a volební programy některých českých politických stran i na to, co se v Českém rozhlase vysílalo před 15 lety. 

Historie Internetu - infografika - Foto: Eva Hudzieczková


Nevýhody:
Snímky jednotlivých webů nejsou pořizovány denně. Webový archiv se tedy nehodí k vyhledávání obsahu stránek, které jsou aktualizovány denně
Nefunguje (zatím) fulltextové vyhledávání.
Pokud neznáme přesnou adresu hledaného webu, pravděpodobně ho nenajdeme

Výhody:
Snadné vyhledávání
Možnost nalézt podobu stránek před aktualizací, sledovat vývoj webu v delším časovém horizontu
Možnost dohledat již neexistující stránky
Funkční linky u archivovaných stránek

Nové články v rubrice

  • 22. října  2015 v 11:00       rubrika: Do it Yourself

    Která fotka je pravá?

    Na sociálních sítích koluje denně spousta fotek - jak však ověřit jejich pravost? Tým Deutsche Welle Innovation se podílí na projektu REVEAL, jehož cílem je vyvinout algoritmus, který by takovéto ověřování usnadnil.

     

Mobilní verze | Podmínky užití | English
© 1997-2018 Český rozhlas