Catégories
Culture Geek Numérique Réseaux et Internet

Archi­ver le web

J’adore le prin­cipe de la wayback machine de l’ini­tia­tive Inter­net Archive. Ils indexent le web et gardent une archive des versions rencon­trées. On peut revoir les conte­nus qui ont disparu du web, ou consul­ter des anciennes versions de conte­nus qui ont changé entre temps.

Et si on réuti­li­sait l’ini­tia­tive à titre person­nel ? Pouvoir retrou­ver les conte­nus déjà visi­tés, même s’ils ont été reti­rés ou ont été amen­dés. Avec un peu de bidouille on pour­rait même recher­cher à travers nos archives.

C’est ce que propose l’IIPC avec le projet open­way­back. Pour ceux qui ne veulent pas utili­ser pywb.

Je pense de plus en plus à me consti­tuer mon archive : Au moins avec les pages que je mets en favori, celles que je lie à partir de mon blog, les liens que j’en­re­gistre dans Pocket, que je lis dans mon flux Twit­ter ou que j’y pose moi-même. Peut-être même que ça vaudrait le coup d’en­re­gis­trer tout ce qui passe dans mon histo­rique de navi­ga­tion.

Pour l’ins­tant je n’ai jamais sauté le pas, mais est-ce si complexe ? pas certain. Il suffi­rait d’un peu de temps, d’un peu de code et de stockage en assez grande quan­tité. Rien d’in­fai­sable.

Entre temps, d’autres se mettent en tête d’ar­chi­ver le web, tout le web. Rien que ça. L’In­ter­net Archive n’est qu’une compo­sante parmi d’autres reliées grâce à Memento. L’Archive Team fait un travail paral­lèle : Eux réus­sisent à archi­ver les conte­nus de quelques services en vue avant qu’ils ferment, les conte­nus des redi­rec­teurs d’URL, et même les conte­nus FTP.

Le web gros­sit à une vitesse formi­dable mais les possi­bi­li­tés de stockage restent suffi­sam­ment impor­tantes pour qu’ar­chi­ver le web soit du domaine du possible.

Photo d’en­tête sous licence CC BY-NC-ND par Pietro­mas­simo Pasqui

4 réponses sur « Archi­ver le web »

Sur le même sujet (merci Karl) : à partir de https://gist.github.com/karlcow/e2475deba2c0fd34384d#my-personal-rustyweb

* Notes on my HTTP archives par Gerald Oskoboiny http://impressive.net/people/gerald/1999/01/http-archive/

* Le format WARC utilisé par l’Internet Archive, et sa génération par wget http://www.archiveteam.org/index.php?title=Wget_with_WARC_output

* Le format MAFF (mozilla archive) http://en.wikipedia.org/wiki/Mozilla_Archive_Format

* Le projet Memento http://www.la-grange.net/2010/11/18/browser-memento

* Le Content Browser de David https://bitbucket.org/david/contentbrowser/

Est-il vraiment nécessaire de *tout* archiver ?
Et, si l’on s’accorde à dire que non, comment faire le tri ?

Avoir la capacité technique et l’espace de stockage nécessaires ne justifie pas nécessairement de mettre en œuvre la solution. Ce que je peux concevoir au niveau personnel, ainsi que tu l’évoques en début d’article, ou de manière ponctuelle comme pour sauvegarder un service sur le point de fermer, se justifie-t-il à grande échelle ?

À titre personnel, le volume est probablement raisonnable. Faire du tri coûte du temps, et ajoute de la complexité. Tant qu’on reste sur une archive privée, je doute du retour sur investissement de ce surcoût. On peut par contre filtrer les sources (regarder uniquement les favoris et pas tout l’historique de navigation). Je suis dubitatif sur l’idée d’aller plus loin dans le filtre.

Sur une archive publique, l’idée c’est qu’on a du mal à savoir ce qui sera utile et avoir un filtre de pertinence qui s’applique à tous. Je suppose qu’il y a de fait une gestion de priorité et de fréquence de visite qui dépend de la pertinence, mais les projets actuels visent plutôt l’exhaustivité, au même titre que les moteurs de recherche. Quel problème souhaites tu mitiger ?

A titre perso j’espère fortement l’apparition d’un proxy qui archiverait aussi ce que je consulte, sans action de ma part. Comme ça rien à faire, juste ajouter un proxy HTTP et hop. Ça existe pas déjà ?

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *