Une très bonne initiative sur le web est la création d’une archive mondiale de tout type de fichiers (audios, videos, documents) mais aussi et surtout des sites web!!!
Vous pouvez donc et grâce à ce service, revenir dans le temps et télécharger par exemple l’une des premières versions de firefox ou encore consulter l’une des 150 billions de pages web archivées depuis 1996!!!
Les exceptions
Bien sur, cela est possible sous certaines conditions, en effet un fichier robots.txt mis sur la racine d’un site web permet de dire quel ressources ne seront pas indexées / accessibles par les robots d’indexation (appelés crawlers, bots ou spiders) et donc si un site interdit l’accès à la découverte et l’indexation de la totalité du site vous ne le trouverez pas dans http://www.archive.org/web/web.php.
par exemple facebook utilise par mesure de sécurité ce fichier, vous ne trouverez donc pas d’archivage de ce site dans la machine wayback.
Les exemples
Prenons les exemples suivant:
- yahoo en octobre 1996
- Google en février 1999
- WordPress.com en decembre 2005
- twitter en novembre 2006
et histoire de constater l’évolution
le site web du ministère de l’intérieur français
Le site web de la maison blanche
Utilisation maline 🙂
Vous avez des problèmes avec votre site! vous avez perdu votre base de donnée, votre site n’existe plus ou vous vous êtes fait piraté (défacement de page web et autre), vous pouvez toujours utilisez ce service pour retrouvez les informations perdues!
C’est vrai que le boulot sera immense si vous désirez récupérer un site ayant plus de 1000 pages (ou enregistrements dans votre base de donnée) mais dites vous que cela sera toujours mieux que rien!! 🙂
je vous rappel donc l’adresse du site: http://www.archive.org/
et leur blog sur wordpress.com: http://iawebarchiving.wordpress.com/
Un petit tutoriel vidéo (en anglais)