< retour aux articles 2000 << retour à l'accueil  


Les bibliothèques au cœur de la numérisation

olivier roumieux - octobre 2000 (Ecarts)

La Bibliothèque nationale de France aurait coûté deux à trois fois moins cher si l'on s'était contenté de numériser l'intégralité de ses collections, plutôt que de construire le bâtiment que l'on connaît. Telle est la conclusion, évidemment controversée, à laquelle est parvenu le chercheur américain Mike Lesk (1). Numérisation contre béton, comparaison n'est pas raison, et pourtant la déjà longue histoire de la BNF stigmatise le développement difficile du document électronique au sein des bibliothèques françaises. En novembre 1997, à l'ouverture du rez-de-jardin des chercheurs, la défaillance du système informatique combinée aux maladresses d'un bâtiment peu apte à recevoir le personnel venaient ajouter de l'eau au moulin des partisans du tout numérique.
Pourtant les bibliothécaires, et les archivistes, sont depuis plusieurs années dans l'œil du cyclone numérique, sans pour certains s'en apercevoir. La numérisation est le bras armé de ce que l'on appelle la convergence. Grâce à différents périphériques d'ordinateurs (scanners, appareils photos…), il est désormais possible de convertir tout type de signal analogique en un fichier numérique, lisible et manipulable par un ordinateur. Images fixes ou animées, musiques ou discours, et particulièrement textes, tous ces types de documents se prêtent de bonne grâce à la moulinette du numérique. Réduits à l'état discret - au sens mathématique - de 0 et de 1, ces documents sont manipulables plus facilement que leur matrice analogique (tout un chacun peut aujourd'hui retoucher sur son ordinateur une photographie de famille pour en faire disparaître le cousin opportuniste), mais surtout reproductibles à l'infini (" un 0 est un 0 " est en passe de remplacer le sage " un sou est un sou ").
Premier intérêt de la numérisation pour les bibliothécaires, par conséquent, celui de pouvoir faciliter et optimiser la conservation et le stockage des collections. Les techniques de numérisation de documents papier remontent en fait aux années quatre-vingt, avec l'apparition des premiers disques optiques numériques. Les grandes capacités de stockage permises par ces derniers ont suscité, d'abord dans les entreprises, les premières expériences de gestion électronique de documents (electronic document management). Avant même les aspects patrimoniaux, ce sont évidemment les promesses d'une productivité accrue qui ont excité -et excitent encore aujourd'hui - les imaginations patronales : gains de place considérables sur disques optiques et surtout temps de recherche des informations (information retrieval) considérablement raccourcis. Aujourd'hui, deux modes de numérisation coexistent. En mode image, le document est numérisé en une suite de points gris ou de couleur (que l'on appelle pixels - picture elements), ce qui permet de conserver toute sa richesse formelle, mais en fait un document inintelligible pour la machine. Les logiciels de " reconnaissance optique de caractères " ont justement pour but de reconnaître parmi cette masse de points les caractères et de reconstituer ainsi un texte manipulable par l'ordinateur - et son utilisateur (recherches en texte intégral, corrections…). Ce mode texte sera privilégié quand le fond du document prime sur sa forme.
Dans les bibliothèques de lecture publique, les motivations n'ont évidemment pas été les mêmes. Ce sont le plus souvent les bibliothèques qui possédaient un fonds régional important qui se sont lancées les premières dans la numérisation. Le plus souvent dans une relative indifférence de la part de leurs autorités de tutelle. Le cas d'Olivier Bogros, conservateur de la bibliothèque municipale de Lisieux, est à ce titre symptomatique. Dès 1994, il distribue à quelques dizaines d'exemplaires sur disquette " Les Affiches de Lisieux ", un bulletin bibliographique signalant les collections locales de la bibliothèque. Parallèlement, il numérise à l'aide d'un simple scanner, comme l'on commence à en trouver sur le marché, un fonds de 2 500 cartes postales. Internaute passionné, il utilise l'espace d'hébergement mis à disposition par son fournisseur d'accès pour créer les premières pages web de la " Bibliothèque électronique de Lisieux ". A force de démonstrations et de persévérance, le conseil municipal débloque un budget spécifique pour l'achat de postes multimédias et le site a désormais son adresse clairement identifiée (2).
Le développement du Web a permis ainsi tout naturellement à différents projets de se constituer à moindre frais des vitrines, par le biais d' " expositions virtuelles " qui sont devenues un argument de plus dans la politique touristique de la région. Grâce à une simple technique, la numérisation, des documents peu ou pas du tout connus peuvent ainsi retrouver une seconde vie, au travers d'une politique régionale de valorisation du patrimoine (culturel mais également naturel). Citons, parmi d'autres actions, le dynamisme des archives départementales de la Mayenne, qui disposent d'une place confortable au sein du site du Conseil général (3). Leur directeur, Joël Surcouf, a eu la brillante idée de numériser le " Journal de l'Occupation ", les notes personnelles d'un Lavallois depuis le début de la Seconde guerre mondiale. Au jour le jour, exactement cinquante ans après, les internautes peuvent suivre ce feuilleton captivant, jusque là complètement oublié.
Archives encore, la numérisation d'un fonds iconographique est l'occasion d'une valorisation matérielle, et - pourquoi pas ? - financière. Le Centre des Archives d'Outre-mer, implanté à Aix-en-Provence, a confié quelque 1 200 pièces du " Dépôt des cartes et plans des colonies " à une jeune société multimédia pour les numériser et les éditer sous forme d'un cédérom commercialisé. Le résultat, appelé " Les Indes belliqueuses ", est un titre multimédia très convivial qui retrace sous la forme de fresque l'aventure des Européens aux Indes.
Bien évidemment, sont en cours de réalisation de vastes projets de numérisation dans chaque pays développé. On retrouve ici la Bibliothèque nationale de France, avec Gallica, son alter-ego virtuel sur l'Internet. Lancé en octobre 1997 avec 2 500 documents textuels, la bibliothèque virtuelle a franchi en février dernier une étape importante de son développement en portant le fonds à 35 000 ouvrages numérisés en mode image et 1 500 en mode texte. La plus grande bibliothèque de France bute encore sur des problèmes de droits et ne peut par conséquent offrir l'accès qu'à des documents " libres de droits ", à savoir dont l'auteur est décédé depuis plus de 70 ans. Ce projet, que l'on ne peut plus appeler expérimentation aujourd'hui, bénéficie d'une véritable politique d'acquisition documentaire, à l'instar de ce qui se fait dans les bibliothèques " traditionnelles ".
Pendant qu'avaient lieu les premières expériences de numérisation de fonds patrimoniaux se développait, d'abord aux Etats-Unis puis en Europe, le fameux Réseau des réseaux, l'Internet. D'abord perçu comme un réseau de communication entre chercheurs et entre ordinateurs, ses potentialités de diffusion et de stockage de documents se révélèrent progressivement tout au long des années quatre-vingt et surtout quatre-vingt-dix. Dès 1971, Michael Hart, un universitaire de l'Illinois, décide d'utiliser la capacité de stockage et de restitution de l'information d'un gros calculateur sur lequel il avait ouvert un compte de temps partagé. Hart commence par saisir la " Déclaration d'indépendance " américaine, qu'il fait circuler sur les réseaux accessibles à l'époque. " La philosophie du projet Gutenberg [puisque tel est le nom de cette bibliothèque virtuelle] est de rendre l'information, les livres et d'autres ressources disponibles au grand public dans des formes qu'une vaste majorité d'ordinateurs, de programmes et de gens puisse facilement lire, utiliser, citer et chercher ", explique le premier des cyberthécaires. Aujourd'hui, Gutenberg (4) est encore loin de son ambition initiale de 10 000 textes numérisés à la fin de l'année prochaine, puisque le fonds se monte à 2 350 ouvrages. Néanmoins, le projet est une réussite incontestable en tant que pionnier des nouvelles bibliothèques numériques (digital libraries).
Alors que le fonds de documents augmentait, apparaissaient des systèmes techniques de stockage et de diffusion de plus en plus sophistiqués. Dès le début des années quatre-vingt dix, le service Gopher (du nom du rongeur mascotte de l'Université du Minnesota où il fut inventé) visualisait les documents stockés sur un serveur informatique sous la forme d'une arborescence comparable à celle de l'interface graphique d'un micro-ordinateur. Appelé par de nombreux spécialistes à devenir le support de LA bibliothèque virtuelle, Gopher présentait une caractéristique plus particulièrement remarquable : la possibilité d'accéder d'un seul clic à des serveurs distincts de celui que l'on consulte, sans avoir à expliciter l'adresse de ces serveurs. Cette notion de lien " implicite " se retrouve au cœur du World Wide Web, dans ses protocoles constitutifs, le HTTP (HyperText Transfer Protocol) et le HTML (HyperText Markup Language). La voie est ainsi ouverte à la fameuse " navigation " au sein de corpus inconnus.
Internet comme bibliothèque virtuelle globale, si le slogan est un rien provocateur, il n'en recèle pas moins une part de vérité. Les bibliothécaires prêtent attention depuis quelques années à la production éditoriale diffusée sur l'Internet. Pourquoi en effet, se sont demandés les pionniers, ne pas intégrer ces documents distants dans nos fonds, constituant ainsi une bibliothèque " hors les murs " ? De nombreux organismes proposent aujourd'hui des " sitothèques " (5) : listes de liens commentés et consciencieusement organisés selon une classification maison. La Bibliothèque nationale de France bien sûr, mais également de nombreuses bibliothèques municipales, ainsi que des centres de documentation en entreprises qui proposent des liens vers les sites les mieux adaptés à leurs utilisateurs (chercheurs, commerciaux, techniciens…).
Il est donc clair que les bibliothécaires - et tous les professionnels dont l'activité gravite autour du document - ont entamé une réflexion concrète autour des potentialités de la numérisation. Ancien et nouveau monde cohabitent pour le moment, avec comme conséquence d'enrichir les usages et les services. Un certain pragmatisme ayant survécu au dogmatisme des gourous enthousiastes et des cyber-pessimistes, il n'en demeure pas moins que ces nouvelles techniques viennent remettre en cause et complexifient des pratiques professionnelles bien connues depuis un siècle.
Ainsi, les premiers cyberthécaires ont dû faire face à des choix d'un type relativement nouveau relevant de la nature même du Réseau. Doit-on " pointer " à partir de la bibliothèque vers les ressources distantes en ligne, ou convient-il plutôt de copier le document sur un support de stockage, pour s'en constituer ainsi un exemplaire local ? Dans ce dernier cas, plus proche des pratiques bibliothéconomiques traditionnelles, la bibliothèque se constitue progressivement un nouveau département, celui des documents électroniques, constitué de multiples étagères virtuelles, les répertoires des disques durs de stockage. Les exemplaires numériques sont conservés localement, le bibliothécaire dispose ainsi d'une maîtrise totale du document : il peut le cataloguer, le déplacer, le copier puis… le supprimer. Outre le problème évident de droits d'auteur que pose cette " captation " (6), les documents ainsi rapatriés perdent la valeur ajoutée que leur confère l'Internet : une perpétuelle évolution (hyper)textuelle. Cette dernière solution est pourtant privilégiée par de nombreux conservateurs de bibliothèque qui souhaitent exploiter les richesses de l'Internet dans la plus droite lignée de leur mission d'origine. Ainsi, un conservateur du Nord de la France expliquait récemment à l'auteur qu'à l'instar de la sélection qu'il opérait dans ses commandes d'ouvrages, il ne souhaitait pas donner accès à l'ensemble du Réseau, mais à une partie dûment choisie, validée et traitée. L'autre solution, qui consiste à pointer vers les documents distants, si elle s'avère incontestablement plus ouverte que la précédente, n'en pose pas moins de nombreux problèmes. Revers de la médaille de l'enrichissement perpétuel, les liens " morts " figurent parmi les embûches les plus courantes de la navigation sur le Web. Les " error 404 " et autres " page not found " signifient que le document a disparu, a été déplacé ou a changé de nom. Quand bien même le document serait toujours atteignable, le bibliothécaire n'a justement aucune maîtrise de l'évolution de son contenu. Par conséquent, un document tout à fait pertinent au moment de sa création peut être repris par un autre auteur quelques mois après, sans même parfois que ce changement soit signalé. Cette difficulté tient dans la nature même du lien en vigueur sur le Web : l'URL (Uniform resource locator). Celui-ci représente en effet une adresse paradoxalement trop absolue par rapport aux possibilité de mutation du Réseau des réseaux. Depuis maintenant cinq ans, des travaux ont cours autour des concepts d'URI (Uniform resource identifier) ou d'URN (Uniform resource name) pour distinguer en quelque sorte le document des aléas du réseau qui l'héberge. La solution envisagée par certains pourrait consister à s'inspirer du système DNS (Domain name system) qui a permis la création des noms de domaines et le véritable décollage de l'Internet dans le public (7). Dans l'attente d'un tel système - qui mettra forcément beaucoup de temps à entrer en vigueur, vu la taille du réseau - les documents électroniques en ligne souffrent d'une incertitude grave quant à leur pérennité. Pérennité douteuse également en ce qui concerne les documents stockés sur supports locaux (disquettes, cédéroms, disques magnétiques…). Ici, ce n'est pas tant la durabilité des supports qui pose problème -il suffit pour y remédier de mettre en place des plans réguliers de remplacement - mais bien plutôt l'instabilité des logiciels et matériels pour les lire. L'informatique est un secteur tellement concurrentiel que les systèmes d'exploitation et les logiciels traitant les documents ont connu en quelques années de nombreuses versions successives. Un peu comme si vous deviez changer de stylo et de lunettes tous les mois, avec à chaque fois le risque que vous ne puissiez plus exploiter vos documents. Pour minimiser ce risque, les principaux organismes qui ont entrepris la numérisation de leurs fonds se rabattent sur des standards technologiques (comme le PDF, Portable document format, d'Adobe) qui, à défaut d'être normalisés, sont suffisamment répandus pour prétendre à une certaine pérennité.
Autre difficulté pour le professionnel de l'information, la validation de cette information. De nombreuses structures d'autorité sont remises en cause avec la floraison des documents électroniques. Auparavant, une monographie publiée chez un éditeur scientifique tel qu'Elsevier - même si sa thèse pouvait prêter à débats - avait fait l'objet d'un travail scientifique, par le biais notamment d'un comité de lecture. Le monde numérique ne dispose pas - encore - de telles autorités de validation. A ce problème s'ajoute la facilité de dupliquer le même document sur plusieurs serveurs de l'Internet (que l'on appelle alors des bases miroirs). Le document n'a plus une existence linéaire, d'éditions en mises à jours successives, mais peut très bien coexister en plusieurs versions amendées. Laquelle est toujours d'actualité ? Sans négliger les risques de contrefaçons : les plus innocentes, les parodies, prêtent à rire (8), quand d'autres ne font qu'entretenir la désinformation, pour des fins politiques ou industrielles.
Le catalogage et l'indexation sont deux missions fondamentales du bibliothécaire. Ils consistent en la description physique et intellectuelle de documents entrant dans les fonds. Premier problème, le catalogage doit se faire " ouvrage en main ", apprend-t-on à l'école. De nouvelles caractéristiques physiques sont de toute évidence à inventer pour le document électronique. Juste un exemple pour mettre l'eau à la bouche : quelle mesure pourrait remplacer la page pour décrire la longueur d'une page web ? Quant à l'indexation, elle ne pose guère de problème de prime abord. Aucun obstacle ne s'oppose à la description d'une page web par des mots-clés. Dans un environnement réparti tel que l'Internet, les pratiques devraient néanmoins évoluer : la caractérisation intellectuelle devrait être faite de plus en plus par les auteurs même des documents, plutôt que par des centres spécialisés tels que les bibliothèques. Si transition il y a, elle sera certainement très longue, puisque l'on ne peut que constater actuellement le peu d'utilisation des balises Meta, des codes spécifiques pour ajouter des informations identifiant la page web, telles que l'auteur, un résumé et des mots-clés.
Ces modes de traitement documentaire sont complémentaires à ce que l'on appelle le " texte intégral ", à savoir l'indexation systématique de chaque mot de chaque document, sans tenir compte du poids des différents concepts. Le texte intégral est le mode de recherche le plus répandu sur l'Internet, notamment au travers des grands moteurs de recherche. Tout internaute ayant un tant soi peu pratiqué ce type d'outils en aura saisi les risques d'uniformisation, de nivellement. Les professionnels de l'information - quelque soit le nom qu'ils portent ou qu'on voudra bien leur donner dans l'avenir - ont un rôle important à jouer pour redonner du sens dans la masse d'informations pléthorique disponible sur l'Internet ; pour hiérarchiser également cette information selon des grilles de valeurs.
Avec le numérique, la notion d'exemplaire est également malmené. Ce que l'on avait coutume d'appeler " l'effet palimpseste " sur les documents papier - les ratures, les annotations, les ajouts en marge - disparaît sur les documents électroniques (9). De par sa nature numérique, le document électronique est en outre très facilement copiable : parmi dix copies d'un même fichier, peut-on encore parler d'un quelconque " original " ? Un développement qui ne lasse pas d'inquiéter les éditeurs. Heureusement ( !), les parades techniques sont déjà prêtes : Adobe, fort de l'implantation de son format PDF, vient de commercialiser un module de sécurisation appelé " Web Buy Merchant " permettant de restreindre l'accès au document, selon la politique tarifaire des producteurs.
Des producteurs d'information qui profitent de l'apparition du nouveau format numérique pour faire valoir leurs droits. Les bibliothèques sont devenues en quelques mois les coupables de la chute du marché français… du livre ! Au moment où nous écrivons ces lignes (avril 2000), près de trois cents écrivains (10) viennent de signer une pétition à l'initiative du Syndicat national de l'édition (SNE) et de la Société des gens de lettres (SGDL) réclamant l'arrêt du prêt gratuit de leurs ouvrages en bibliothèque, tant qu'un système de reversement de leurs droits n'aura pas été établi (les éditeurs revendiquent un droit de 5 francs par ouvrage prêté !). Dans ce contexte de marchandisation systématique et uniforme, le livre est évidemment un produit qui ne peut supporter la forme anormale de communication qu'est le prêt ! Pourtant, le tollé qui a suivi la déclaration des auteurs en faveur du droit de prêt (plusieurs pétitions d'auteurs et de bibliothécaires en faveur du libre accès à la culture) montre qu'un véritable débat de société s'ouvre. D'autant que derrière la querelle du droit de prêt se profilent d'autres batailles qui se joueront cette fois à l'échelle de la planète : le verrouillage des fichiers de documents et des systèmes de livres électroniques. Avec pour perspectives le cloisonnement de la culture par des techniques hétérogènes d'accès et la disparition progressive d'une ambition politique en vigueur dans les pays occidentalisés depuis la fin de la Seconde guerre mondiale : l'accès de tous à la culture.
Alors que la " nouvelle économie " se met en place, avec ses bataillons d' " empires " concentrés et de " barbares " menaçants, les bibliothèques et archives continuent à assurer leur mission de pérennité du savoir. Elles fixent une information qui est devenue le carburant du nouveau monde, par le biais de rachats fusions et prises de participation. Centres de la subversion, ils sont les freins consciencieux du fol emballement numérique de notre société.

 

(1) Mike Lesk, Practical Digital Library, Morgan Kaufman Publishers, 1997.
(2) www.bmlisieux.com
(3) www.cg53.fr
(4) www.gutenberg.net
(5) On excusera le néologisme hasardeux, dans l'attente que les pratiques entérinent un terme plus adéquat.
(6) Le propos de cet article n'est pas d'aborder la vaste question des droits d'auteur remis en cause (mais non bouleversés) par la numérisation. Celle-ci est pourtant transverse au développement des documents numériques.
(7) Auparavant, seul le numéro IP servait à désigner un serveur connecté à l'Internet. Au début des années quatre-vingt, le système DNS a permis de remplacer la suite de chiffres quelque peu absconse (255.255.255.255, par exemple) en nom composé plus mnémotechnique (www.duschmoll.com).
(8) Ne pas rater le site officieux des " Amis du Président de la république ", sur le frontispice duquel on peut lire : " Ça m'en touche une sans faire bouger l'autre ".
www.elysee.org
(9) Sauf dans les dernières versions des traitements de texte et des logiciels de Ged (Gestion électronique de documents) qui s'efforcent de conserver un historique des modifications apportées à un document, voire permettent des annotations extérieures au document.
(10) On y retrouve des plumes renommées : Francis Balle, Emmanuel Carrère, Didier Decoin, Jean Delumeau, Eric Holder, Plantu, Alain Robbe-Grillet…



- Olivier Roumieux, page créée le 1er juillet 2001 -