En mars 1996, l’américain Brewster Kahle, entrepreneur devenu millionnaire suite à la vente de 2 entreprises, décide de consacrer son temps et son argent au développement d’une fondation. Dénommée Internet Archive, cette fondation a l’objectif inédit d’archiver le web. (Pour rappel, le web fut inventé au CERN en 1989 par Tim Berners-Lee et cette technologie fut versée dans le domaine public en 1993, date à laquelle le grand public a pu accéder au web via des navigateurs tel Mosaic).

 

Pour archiver le web, Brewster Kahle a développé un « crawler », programme capable de naviguer de manière autonome sur le Web et de stocker des copies des pages visitées. Son idée consistait à créer la “prochaine bibliothèque d’Alexandrie, celle de l’ère numérique. Une bibliothèque numérique universelle”.[1]
A la suite de cette initiative, les bibliothèques nationales de Suède et d’Australie lancent leurs propres programmes d’archivage du web (les projets Kulturarw3 et PANDORA), suivies par la BNF en 1999. Depuis cette date, la BNF a mené plusieurs programmes combinant différentes approches d’archivages du web. En 2006, sa mission est officialisée avec la promulgation de la loi Droit d’auteurs et droits voisins dans la société de l‘information (DADVSI) qui a apporté quelques modifications au code du patrimoine étendant le régime du dépôt légal aux sites Web.

 

En 2003, la BNF s’est associée avec une dizaine de bibliothèques nationales, ainsi qu’avec Internet Archive, pour constituer le consortium international pour la préservation de l’internet (IIPC) dans le but de sauvegarder les contenus du web au bénéfice des générations futures. Dans ce cadre, la BNF collabore par exemple avec d’autres bibliothèques, comme pour l’utilisation du logiciel open-source NetarchiveSuite, développé initialement par les bibliothèques royale et universitaire danoises.

Car l’archivage du web ne peut se faire qu’à l’aide de programmes, tant la croissance du nombres de pages web est exponentielle (Internet Archive indexe 300 millions de pages web par semaine[2]). Mais la page web étant un objet complexe, il n’y a pas qu’une seule « bonne » méthode d’archivage. En effet, de part sa nature hypertextuelle, la page web est plus un chemin de navigation qu’un support d’inscription. D’où la complexité d’indexer le « contexte » de la page puisqu’elle est segmentée en éléments plus ou moins autonomes (boutons, images, vidéos, bannières, textes etc.). Au delà de la complexité de définition d’une page web, il est aussi difficile, voir impossible pour les archivistes du web (robots ou humains), d’accéder à ce qu’on appelle le web profond, qui est 400 à 550 fois plus volumineux que le web visible[3]. Par essence, le web profond n’est pas accessible aux moteurs de recherche : soit parce que les pages ont été volontairement non-autorisées aux robots d’indexation par l’administrateur du site, soit parce qu’elles sont protégées par un compte utilisateur nécessitant un mot de passe (une partie du contenu des réseaux sociaux est ainsi situé dans le web profond). Le dernier problème majeur pour les archivistes du web est le respect du droit d’auteur, puisque l’archivage peut s’apparenter à une copie de contenu.

 

Pour faire face à ces difficultés, chaque institution possède sa propre méthode, automatisée, semi-automatisée ou manuelle[4] (exemples entre parenthèses) :

  • L’approche intégrale (automatisée pour Internet Archive)
  • L’approche exhaustive (automatisée pour Kulturarw3)
  • L’approche sélective (semi-automatisée pour Pandora et manuelle pour la Bibliothèque Nationale du Québec)
  • L’approche thématique (semi–automatisée pour la BNF lors des élections présidentielles de 2002)
  • Les approches combinées (approche par échantillonnage semi-automatisé pour la BNF et l’INA)

 

Pourquoi l’archivage du web est-il un enjeu majeur pour le monde des bibliothèques ? Tout simplement car l’une des missions principales des bibliothèques est la conservation du patrimoine documentaire. Or le patrimoine numérique en fait bien partie et cela a été confirmé en France par la loi DADVSI. Grâce à ces archives, il est possible de consulter des pages web qui pourront avoir disparue (la fameuse erreur 404), ou été profondément modifiée. L’outil de consultation le plus simple à appréhender est la « Wayback Machine », littéralement machine à remonter dans le temps, développé par Internet Archive. Il permet de voir les pages web tels qu’elles pouvaient exister à différentes dates. Il est ainsi intéressant pour des élèves de se rendre compte de l’évolution rapide de la technologie web à travers la consultation de ces archives. En ce qui concerne les archives françaises du web, elles sont consultables à la BNF dans ses salles de recherches. Seuls des chercheurs accrédités peuvent y avoir accès, grâce à une exception prévue dans la loi relatives au droit d’auteur.

 

Comme nous avons pu le montrer, l’entreprise d’archivage du web est titanesque, et il est impossible qu’elle atteigne l’exhaustivité. Le web changeant très vite, il n’est possible de réaliser que des instantanées et même en les rapprochant le plus possible, il subsistera toujours des vides. L’analogie avec la photo de Louis Daguerre rapportée par Xavier de La Porte sur France Culture, illustre parfaitement cette idée, que seul ce qui ne bouge pas peut être saisi.[5]

La rue semble vide. Seuls le cireur de chaussures et son client, qui n’ont pas bougé durant le temps de pause de l’appareil, apparaissent. Les autres personnes, en mouvement, ont disparu de l’image.

[1] http://www.lemonde.fr/pixels/article/2016/10/26/vingt-ans-d-archivage-du-web-un-projet-titanesque_5020433_4408996.html

[2] https://www.franceculture.fr/emissions/la-vie-numerique/archiver-le-web-cest-etre-condamne-aux-vides

[3] http://www.enssib.fr/bibliotheque-numerique/documents/1730-l-archivage-du-web.pdf

[4] http://www.enssib.fr/bibliotheque-numerique/documents/1730-l-archivage-du-web.pdf

[5] https://www.franceculture.fr/emissions/la-vie-numerique/archiver-le-web-cest-etre-condamne-aux-vides

 

Leave a reply

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

UA-75348671-1