dépôt légal

la quadrature du Web

olivier roumieux - juin 2001 (Archimag)

Le dépôt légal, déjà ouvert aux documents électroniques, va s'ouvrir aux ressources accessibles en ligne. Un chantier énorme qui bouleverse la conception traditionnelle de collecte patrimoniale.

Pour assurer la mémoire de son patrimoine intellectuel, la France dispose d'un outil parfaitement rodé depuis plusieurs siècles : le dépôt légal (cf. plus bas). D'abord institué pour les imprimés, puis pour les documents audiovisuels et les logiciels, le dépôt légal est tout naturellement au centre des préoccupations des législateurs pour ce qui concerne les pages HTML (Hypertext markup language) qui composent le Web. Ils envisagent en effet de modifier la loi de 1992 concernant le dépôt légal pour y intégrer les ressources électroniques en ligne. " De façon claire ", précise Catherine Lupovici, directrice de la Bibliothèque numérique à la Bibliothèque nationale de France (BNF), " car le décret d'application de 1993 ne donnait des consignes que pour les documents électroniques sur supports physiques ", comme les disquettes ou les cédéroms. Le "véhicule" de cette évolution est trouvé depuis près de deux ans : la Loi sur la société de l'information (LSI) annoncée par Lionel Jospin à l'université d'été de la communication d'Hourtin en août 1999. A l'heure où nous écrivons ces lignes, l'avant-projet a quitté les ministères pour circuler entre plusieurs organismes consultés (le Conseil d'Etat, le Conseil supérieur de l'audiovisuel, l'Autorité de régulation des télécommunication...).

profil bas

Le passage au Parlement est toujours programmé pour avant l'été... bien que certaines Cassandre prédisent des délais beaucoup plus longs. En attendant, les services du Premier ministre font profil bas avec la presse et nous n'avons pu établir de contact avec un responsable impliqué. En l'absence de communication, ne subsistent plus que les fuites, avec la version non définitive que s'est procuré le magazine Transfert en février dernier (1). On y apprend notamment que concernant le " dépôt légal des services de communication en ligne ", le choix n'a pas été fait entre une loi d'institution, définitive, et une loi d'expérimentation sur trois ans. L'organisme dépositaire, BNF ou Ina (Institut national de l'audiovisuel) n'est pas non plus connu. On en apprend néanmoins un peu plus avec Catherine Lupovici. Tout d'abord, dépôt légal suppose archivage ; les sites soumis au dépôt légal ne seront donc pas atteints par liens, mais bien aspirés et rapatriés sur les serveurs de l'organisme dépositaire, pour des raisons de pérennité de l'information. On n'envisage donc pas d'obliger les éditeurs (au sens large) à déposer activement leurs sites, mais plutôt à en permettre l'accès.

la négociation et l'aspiration

Sur le plan de la collecte, deux méthodes devraient être employées : la négociation et l'aspiration. Les principaux éditeurs de contenus, comme les hébergeurs, seront contactés et des accords techniques seront conclus pour autoriser l'entrée des logiciels de collecte. Des négociations sont déjà en cours, avec notamment Vivendi-Universal et MP3 France pour la musique, Elsevier et 00h00.com pour l'édition textuelle. Pour prendre en compte la production éditoriale plus "spontanée", moins identifiable, un crawler comme ceux qu'utilisent les moteurs de recherche classiques devrait être employé. Plusieurs solutions techniques sont envisagées, dont celle de Xylème, une jeune start-up issue de l'Inria (Institut national de la recherche en informatique et automatique) qui développe actuellement un moteur d'indexation des sites web en XML (eXtensible markup language).

se rapprocher de l'archivistique

Quels que soient les moyens employés, l'ampleur du projet peut sembler démesurée. Ce qui ne manque pas de susciter des interrogations quant à la pertinence de soumettre l'ensemble du Web au dépôt légal. Selon Annie Marcheix, présidente de l'AILF (Association des informaticiens de langue française), une composante de l'intercollectif Delis (Droits et libertés face à l'informatisation de la société), on ne peut pas considérer le Web comme " une simple extension des médias classiques ". Entre les sites officiels, commerciaux, les pages personnelles ou associatives, la diversité est bien plus grande que dans le cas de l'imprimé. Le dépôt légal pose problème en termes techniques (comment appréhender la masse des pages dynamiques, par exemple), mais également d'un point de vue éthique : " Il existe un espace de liberté sur le Web que l'on doit conserver, le Web non marchand est une nécessité sociétale ", explique Annie Marcheix.
La démarche à suivre ne peut être systématique, reconnaît-on du côté de la BNF. Elle doit se rapprocher des méthodes de collecte plus proches de celles de l'archivistique que du dépôt légal classique. L'archivage devra être guidé par le sens, en pensant aux utilisations potentielles (enseignement et recherche, études sociétal...) et en visant la représentativité statistique plutôt que l'exhaustivité. Une tendance déjà amorcée par la loi de 1992 en ce qui concerne les documents audiovisuels : l'Ina n'est pas soumis à l'exhaustivité mais opère une sélection dans sa collecte. Il ne s'agit plus de raisonner en termes de publications isolées, mais plutôt d'archives actives interconnectées. Travailler sur le poids des liens également, leur popularité. Un modèle que Catherine Lupovici reconnaît en Google, un moteur de recherche maintenant bien connu qui a introduit la notion d'indice de popularité des pages et qui archive lui-même les pages qu'il indexe.

problème de versions

Le problème de l'unité documentaire est cependant loin d'être résolu. Alors qu'il est relativement aisé d'identifier la version de publication d'un imprimé, les sites web sont - normalement - en perpétuelle évolution. Comment identifier une nouvelle version qui justifie un nouvel archivage distinct ? Enfin, même déconnecté d'un support physique (quoiqu'un document HTML soit toujours stocké sur le disque dur d'un serveur), les pages web sont dépendantes de la technologie et donc susceptibles de devenir illisibles quand les navigateurs auront fortement évolué. On se retrouve alors dans une problématique d'archivage électronique à long terme (cf. Archimag n°143, p. 5), entre migrations successives des données, émulation des logiciels de lecture ou bien description a priori et ouverte des documents archivés (modèle OAIS, Système ouvert d'archivage de l'information). Un détail à prendre en compte lorsque l'on entre dans une institution vieille de plus quatre cent cinquante ans !

(1) www.transfert.net/fr/cyber_societe/article.cfm?idx_rub=87&idx_art=3968

qu'est-ce que le dépôt légal ?

Le dépôt légal a été institué en 1537 par François 1er au travers de l'ordonnance de Montpellier. En cette période agitée de Réforme, il lui avait été assigné un double objectif : la conservation et le contrôle (des idées). Bien que l'on puisse établir que nos contrées se soient relativement pacifiées depuis, il faut savoir que le ministère de l'Intérieur fait toujours partie des organismes dépositaires. Car la responsabilité du dépôt est répartie. La Bibliothèque nationale de France (BNF) s'occupe des livres, périodiques, estampes, photographies, phonogrammes, mais également des progiciels des bases de données. L'Institut national de l'audiovisuel (Ina) prend en charge les documents radio et télédiffusés et enfin le Centre national du cinéma (CNC) conserve les films... cinéma. Ainsi, pour un livre, l'éditeur doit déposer quatre exemplaires à la BNF et un au ministère de l'Intérieur, l'imprimeur deux exemplaires à la bibliothèque municipale chargée du dépôt légal régional. Avec le temps, le dépôt légal est devenu un instrument indispensable à la politique culturelle de la France en terme d'acquisition, pour recenser la production éditoriale et permettre une meilleure description bibliographique. Jusqu'à présent, le dépôt légal est régi par la loi 92-546 du 20 juin 1992 et par le décret 93-1429 du 31 décembre 1993. Mais nous sommes à la veille de sa révision dans le cadre de la Loi sur la société de l'information.

- Olivier Roumieux, page créée le 1er juillet 2001 -

Valid HTML 4.01! Valid CSS!