J’adore le principe de la wayback machine de l’initiative Internet Archive. Ils indexent le web et gardent une archive des versions rencontrées. On peut revoir les contenus qui ont disparu du web, ou consulter des anciennes versions de contenus qui ont changé entre temps.
Et si on réutilisait l’initiative à titre personnel ? Pouvoir retrouver les contenus déjà visités, même s’ils ont été retirés ou ont été amendés. Avec un peu de bidouille on pourrait même rechercher à travers nos archives.
C’est ce que propose l’IIPC avec le projet openwayback. Pour ceux qui ne veulent pas utiliser pywb.
Je pense de plus en plus à me constituer mon archive : Au moins avec les pages que je mets en favori, celles que je lie à partir de mon blog, les liens que j’enregistre dans Pocket, que je lis dans mon flux Twitter ou que j’y pose moi-même. Peut-être même que ça vaudrait le coup d’enregistrer tout ce qui passe dans mon historique de navigation.
Pour l’instant je n’ai jamais sauté le pas, mais est-ce si complexe ? pas certain. Il suffirait d’un peu de temps, d’un peu de code et de stockage en assez grande quantité. Rien d’infaisable.
Entre temps, d’autres se mettent en tête d’archiver le web, tout le web. Rien que ça. L’Internet Archive n’est qu’une composante parmi d’autres reliées grâce à Memento. L’Archive Team fait un travail parallèle : Eux réussisent à archiver les contenus de quelques services en vue avant qu’ils ferment, les contenus des redirecteurs d’URL, et même les contenus FTP.
Le web grossit à une vitesse formidable mais les possibilités de stockage restent suffisamment importantes pour qu’archiver le web soit du domaine du possible.
Photo d’entête sous licence CC BY-NC-ND par Pietromassimo Pasqui
4 réponses à “Archiver le web”
Sur le même sujet (merci Karl) : à partir de https://gist.github.com/karlcow/e2475deba2c0fd34384d#my-personal-rustyweb
* Notes on my HTTP archives par Gerald Oskoboiny http://impressive.net/people/gerald/1999/01/http-archive/
* Le format WARC utilisé par l’Internet Archive, et sa génération par wget http://www.archiveteam.org/index.php?title=Wget_with_WARC_output
* Le format MAFF (mozilla archive) http://en.wikipedia.org/wiki/Mozilla_Archive_Format
* Le projet Memento http://www.la-grange.net/2010/11/18/browser-memento
* Le Content Browser de David https://bitbucket.org/david/contentbrowser/
Est-il vraiment nécessaire de *tout* archiver ?
Et, si l’on s’accorde à dire que non, comment faire le tri ?
Avoir la capacité technique et l’espace de stockage nécessaires ne justifie pas nécessairement de mettre en œuvre la solution. Ce que je peux concevoir au niveau personnel, ainsi que tu l’évoques en début d’article, ou de manière ponctuelle comme pour sauvegarder un service sur le point de fermer, se justifie-t-il à grande échelle ?
À titre personnel, le volume est probablement raisonnable. Faire du tri coûte du temps, et ajoute de la complexité. Tant qu’on reste sur une archive privée, je doute du retour sur investissement de ce surcoût. On peut par contre filtrer les sources (regarder uniquement les favoris et pas tout l’historique de navigation). Je suis dubitatif sur l’idée d’aller plus loin dans le filtre.
Sur une archive publique, l’idée c’est qu’on a du mal à savoir ce qui sera utile et avoir un filtre de pertinence qui s’applique à tous. Je suppose qu’il y a de fait une gestion de priorité et de fréquence de visite qui dépend de la pertinence, mais les projets actuels visent plutôt l’exhaustivité, au même titre que les moteurs de recherche. Quel problème souhaites tu mitiger ?
A titre perso j’espère fortement l’apparition d’un proxy qui archiverait aussi ce que je consulte, sans action de ma part. Comme ça rien à faire, juste ajouter un proxy HTTP et hop. Ça existe pas déjà ?