Les bibliothèques
au cur de la numérisation
olivier roumieux - octobre 2000 (Ecarts)
La Bibliothèque nationale de France aurait
coûté deux à trois fois moins cher si l'on s'était
contenté de numériser l'intégralité de ses
collections, plutôt que de construire le bâtiment que l'on
connaît. Telle est la conclusion, évidemment controversée,
à laquelle est parvenu le chercheur américain Mike Lesk
(1). Numérisation contre béton, comparaison n'est pas raison,
et pourtant la déjà longue histoire de la BNF stigmatise
le développement difficile du document électronique au sein
des bibliothèques françaises. En novembre 1997, à
l'ouverture du rez-de-jardin des chercheurs, la défaillance du
système informatique combinée aux maladresses d'un bâtiment
peu apte à recevoir le personnel venaient ajouter de l'eau au moulin
des partisans du tout numérique.
Pourtant les bibliothécaires, et les archivistes, sont depuis plusieurs
années dans l'il du cyclone numérique, sans pour certains
s'en apercevoir. La numérisation est le bras armé de ce
que l'on appelle la convergence. Grâce à différents
périphériques d'ordinateurs (scanners, appareils photos
),
il est désormais possible de convertir tout type de signal analogique
en un fichier numérique, lisible et manipulable par un ordinateur.
Images fixes ou animées, musiques ou discours, et particulièrement
textes, tous ces types de documents se prêtent de bonne grâce
à la moulinette du numérique. Réduits à l'état
discret - au sens mathématique - de 0 et de 1, ces documents sont
manipulables plus facilement que leur matrice analogique (tout un chacun
peut aujourd'hui retoucher sur son ordinateur une photographie de famille
pour en faire disparaître le cousin opportuniste), mais surtout
reproductibles à l'infini (" un 0 est un 0 " est en passe
de remplacer le sage " un sou est un sou ").
Premier intérêt de la numérisation pour les bibliothécaires,
par conséquent, celui de pouvoir faciliter et optimiser la conservation
et le stockage des collections. Les techniques de numérisation
de documents papier remontent en fait aux années quatre-vingt,
avec l'apparition des premiers disques optiques numériques. Les
grandes capacités de stockage permises par ces derniers ont suscité,
d'abord dans les entreprises, les premières expériences
de gestion électronique de documents (electronic document management).
Avant même les aspects patrimoniaux, ce sont évidemment les
promesses d'une productivité accrue qui ont excité -et excitent
encore aujourd'hui - les imaginations patronales : gains de place considérables
sur disques optiques et surtout temps de recherche des informations (information
retrieval) considérablement raccourcis. Aujourd'hui, deux modes
de numérisation coexistent. En mode image, le document est numérisé
en une suite de points gris ou de couleur (que l'on appelle pixels - picture
elements), ce qui permet de conserver toute sa richesse formelle, mais
en fait un document inintelligible pour la machine. Les logiciels de "
reconnaissance optique de caractères " ont justement pour
but de reconnaître parmi cette masse de points les caractères
et de reconstituer ainsi un texte manipulable par l'ordinateur - et son
utilisateur (recherches en texte intégral, corrections
).
Ce mode texte sera privilégié quand le fond du document
prime sur sa forme.
Dans les bibliothèques de lecture publique, les motivations n'ont
évidemment pas été les mêmes. Ce sont le plus
souvent les bibliothèques qui possédaient un fonds régional
important qui se sont lancées les premières dans la numérisation.
Le plus souvent dans une relative indifférence de la part de leurs
autorités de tutelle. Le cas d'Olivier Bogros, conservateur de
la bibliothèque municipale de Lisieux, est à ce titre symptomatique.
Dès 1994, il distribue à quelques dizaines d'exemplaires
sur disquette " Les Affiches de Lisieux ", un bulletin bibliographique
signalant les collections locales de la bibliothèque. Parallèlement,
il numérise à l'aide d'un simple scanner, comme l'on commence
à en trouver sur le marché, un fonds de 2 500 cartes postales.
Internaute passionné, il utilise l'espace d'hébergement
mis à disposition par son fournisseur d'accès pour créer
les premières pages web de la " Bibliothèque électronique
de Lisieux ". A force de démonstrations et de persévérance,
le conseil municipal débloque un budget spécifique pour
l'achat de postes multimédias et le site a désormais son
adresse clairement identifiée (2).
Le développement du Web a permis ainsi tout naturellement à
différents projets de se constituer à moindre frais des
vitrines, par le biais d' " expositions virtuelles " qui sont
devenues un argument de plus dans la politique touristique de la région.
Grâce à une simple technique, la numérisation, des
documents peu ou pas du tout connus peuvent ainsi retrouver une seconde
vie, au travers d'une politique régionale de valorisation du patrimoine
(culturel mais également naturel). Citons, parmi d'autres actions,
le dynamisme des archives départementales de la Mayenne, qui disposent
d'une place confortable au sein du site du Conseil général
(3). Leur directeur, Joël Surcouf, a eu la brillante idée
de numériser le " Journal de l'Occupation ", les notes
personnelles d'un Lavallois depuis le début de la Seconde guerre
mondiale. Au jour le jour, exactement cinquante ans après, les
internautes peuvent suivre ce feuilleton captivant, jusque là complètement
oublié.
Archives encore, la numérisation d'un fonds iconographique est
l'occasion d'une valorisation matérielle, et - pourquoi pas ? -
financière. Le Centre des Archives d'Outre-mer, implanté
à Aix-en-Provence, a confié quelque 1 200 pièces
du " Dépôt des cartes et plans des colonies " à
une jeune société multimédia pour les numériser
et les éditer sous forme d'un cédérom commercialisé.
Le résultat, appelé " Les Indes belliqueuses ",
est un titre multimédia très convivial qui retrace sous
la forme de fresque l'aventure des Européens aux Indes.
Bien évidemment, sont en cours de réalisation de vastes
projets de numérisation dans chaque pays développé.
On retrouve ici la Bibliothèque nationale de France, avec Gallica,
son alter-ego virtuel sur l'Internet. Lancé en octobre 1997 avec
2 500 documents textuels, la bibliothèque virtuelle a franchi en
février dernier une étape importante de son développement
en portant le fonds à 35 000 ouvrages numérisés en
mode image et 1 500 en mode texte. La plus grande bibliothèque
de France bute encore sur des problèmes de droits et ne peut par
conséquent offrir l'accès qu'à des documents "
libres de droits ", à savoir dont l'auteur est décédé
depuis plus de 70 ans. Ce projet, que l'on ne peut plus appeler expérimentation
aujourd'hui, bénéficie d'une véritable politique
d'acquisition documentaire, à l'instar de ce qui se fait dans les
bibliothèques " traditionnelles ".
Pendant qu'avaient lieu les premières expériences de numérisation
de fonds patrimoniaux se développait, d'abord aux Etats-Unis puis
en Europe, le fameux Réseau des réseaux, l'Internet. D'abord
perçu comme un réseau de communication entre chercheurs
et entre ordinateurs, ses potentialités de diffusion et de stockage
de documents se révélèrent progressivement tout au
long des années quatre-vingt et surtout quatre-vingt-dix. Dès
1971, Michael Hart, un universitaire de l'Illinois, décide d'utiliser
la capacité de stockage et de restitution de l'information d'un
gros calculateur sur lequel il avait ouvert un compte de temps partagé.
Hart commence par saisir la " Déclaration d'indépendance
" américaine, qu'il fait circuler sur les réseaux accessibles
à l'époque. " La philosophie du projet Gutenberg [puisque
tel est le nom de cette bibliothèque virtuelle] est de rendre l'information,
les livres et d'autres ressources disponibles au grand public dans des
formes qu'une vaste majorité d'ordinateurs, de programmes et de
gens puisse facilement lire, utiliser, citer et chercher ", explique
le premier des cyberthécaires. Aujourd'hui, Gutenberg (4) est encore
loin de son ambition initiale de 10 000 textes numérisés
à la fin de l'année prochaine, puisque le fonds se monte
à 2 350 ouvrages. Néanmoins, le projet est une réussite
incontestable en tant que pionnier des nouvelles bibliothèques
numériques (digital libraries).
Alors que le fonds de documents augmentait, apparaissaient des systèmes
techniques de stockage et de diffusion de plus en plus sophistiqués.
Dès le début des années quatre-vingt dix, le service
Gopher (du nom du rongeur mascotte de l'Université du Minnesota
où il fut inventé) visualisait les documents stockés
sur un serveur informatique sous la forme d'une arborescence comparable
à celle de l'interface graphique d'un micro-ordinateur. Appelé
par de nombreux spécialistes à devenir le support de LA
bibliothèque virtuelle, Gopher présentait une caractéristique
plus particulièrement remarquable : la possibilité d'accéder
d'un seul clic à des serveurs distincts de celui que l'on consulte,
sans avoir à expliciter l'adresse de ces serveurs. Cette notion
de lien " implicite " se retrouve au cur du World Wide
Web, dans ses protocoles constitutifs, le HTTP (HyperText Transfer Protocol)
et le HTML (HyperText Markup Language). La voie est ainsi ouverte à
la fameuse " navigation " au sein de corpus inconnus.
Internet comme bibliothèque virtuelle globale, si le slogan est
un rien provocateur, il n'en recèle pas moins une part de vérité.
Les bibliothécaires prêtent attention depuis quelques années
à la production éditoriale diffusée sur l'Internet.
Pourquoi en effet, se sont demandés les pionniers, ne pas intégrer
ces documents distants dans nos fonds, constituant ainsi une bibliothèque
" hors les murs " ? De nombreux organismes proposent aujourd'hui
des " sitothèques " (5) : listes de liens commentés
et consciencieusement organisés selon une classification maison.
La Bibliothèque nationale de France bien sûr, mais également
de nombreuses bibliothèques municipales, ainsi que des centres
de documentation en entreprises qui proposent des liens vers les sites
les mieux adaptés à leurs utilisateurs (chercheurs, commerciaux,
techniciens
).
Il est donc clair que les bibliothécaires - et tous les professionnels
dont l'activité gravite autour du document - ont entamé
une réflexion concrète autour des potentialités de
la numérisation. Ancien et nouveau monde cohabitent pour le moment,
avec comme conséquence d'enrichir les usages et les services. Un
certain pragmatisme ayant survécu au dogmatisme des gourous enthousiastes
et des cyber-pessimistes, il n'en demeure pas moins que ces nouvelles
techniques viennent remettre en cause et complexifient des pratiques professionnelles
bien connues depuis un siècle.
Ainsi, les premiers cyberthécaires ont dû faire face à
des choix d'un type relativement nouveau relevant de la nature même
du Réseau. Doit-on " pointer " à partir de la
bibliothèque vers les ressources distantes en ligne, ou convient-il
plutôt de copier le document sur un support de stockage, pour s'en
constituer ainsi un exemplaire local ? Dans ce dernier cas, plus proche
des pratiques bibliothéconomiques traditionnelles, la bibliothèque
se constitue progressivement un nouveau département, celui des
documents électroniques, constitué de multiples étagères
virtuelles, les répertoires des disques durs de stockage. Les exemplaires
numériques sont conservés localement, le bibliothécaire
dispose ainsi d'une maîtrise totale du document : il peut le cataloguer,
le déplacer, le copier puis
le supprimer. Outre le problème
évident de droits d'auteur que pose cette " captation "
(6), les documents ainsi rapatriés perdent la valeur ajoutée
que leur confère l'Internet : une perpétuelle évolution
(hyper)textuelle. Cette dernière solution est pourtant privilégiée
par de nombreux conservateurs de bibliothèque qui souhaitent exploiter
les richesses de l'Internet dans la plus droite lignée de leur
mission d'origine. Ainsi, un conservateur du Nord de la France expliquait
récemment à l'auteur qu'à l'instar de la sélection
qu'il opérait dans ses commandes d'ouvrages, il ne souhaitait pas
donner accès à l'ensemble du Réseau, mais à
une partie dûment choisie, validée et traitée. L'autre
solution, qui consiste à pointer vers les documents distants, si
elle s'avère incontestablement plus ouverte que la précédente,
n'en pose pas moins de nombreux problèmes. Revers de la médaille
de l'enrichissement perpétuel, les liens " morts " figurent
parmi les embûches les plus courantes de la navigation sur le Web.
Les " error 404 " et autres " page not found " signifient
que le document a disparu, a été déplacé ou
a changé de nom. Quand bien même le document serait toujours
atteignable, le bibliothécaire n'a justement aucune maîtrise
de l'évolution de son contenu. Par conséquent, un document
tout à fait pertinent au moment de sa création peut être
repris par un autre auteur quelques mois après, sans même
parfois que ce changement soit signalé. Cette difficulté
tient dans la nature même du lien en vigueur sur le Web : l'URL
(Uniform resource locator). Celui-ci représente en effet une adresse
paradoxalement trop absolue par rapport aux possibilité de mutation
du Réseau des réseaux. Depuis maintenant cinq ans, des travaux
ont cours autour des concepts d'URI (Uniform resource identifier) ou d'URN
(Uniform resource name) pour distinguer en quelque sorte le document des
aléas du réseau qui l'héberge. La solution envisagée
par certains pourrait consister à s'inspirer du système
DNS (Domain name system) qui a permis la création des noms de domaines
et le véritable décollage de l'Internet dans le public (7).
Dans l'attente d'un tel système - qui mettra forcément beaucoup
de temps à entrer en vigueur, vu la taille du réseau - les
documents électroniques en ligne souffrent d'une incertitude grave
quant à leur pérennité. Pérennité douteuse
également en ce qui concerne les documents stockés sur supports
locaux (disquettes, cédéroms, disques magnétiques
).
Ici, ce n'est pas tant la durabilité des supports qui pose problème
-il suffit pour y remédier de mettre en place des plans réguliers
de remplacement - mais bien plutôt l'instabilité des logiciels
et matériels pour les lire. L'informatique est un secteur tellement
concurrentiel que les systèmes d'exploitation et les logiciels
traitant les documents ont connu en quelques années de nombreuses
versions successives. Un peu comme si vous deviez changer de stylo et
de lunettes tous les mois, avec à chaque fois le risque que vous
ne puissiez plus exploiter vos documents. Pour minimiser ce risque, les
principaux organismes qui ont entrepris la numérisation de leurs
fonds se rabattent sur des standards technologiques (comme le PDF, Portable
document format, d'Adobe) qui, à défaut d'être normalisés,
sont suffisamment répandus pour prétendre à une certaine
pérennité.
Autre difficulté pour le professionnel de l'information, la validation
de cette information. De nombreuses structures d'autorité sont
remises en cause avec la floraison des documents électroniques.
Auparavant, une monographie publiée chez un éditeur scientifique
tel qu'Elsevier - même si sa thèse pouvait prêter à
débats - avait fait l'objet d'un travail scientifique, par le biais
notamment d'un comité de lecture. Le monde numérique ne
dispose pas - encore - de telles autorités de validation. A ce
problème s'ajoute la facilité de dupliquer le même
document sur plusieurs serveurs de l'Internet (que l'on appelle alors
des bases miroirs). Le document n'a plus une existence linéaire,
d'éditions en mises à jours successives, mais peut très
bien coexister en plusieurs versions amendées. Laquelle est toujours
d'actualité ? Sans négliger les risques de contrefaçons
: les plus innocentes, les parodies, prêtent à rire (8),
quand d'autres ne font qu'entretenir la désinformation, pour des
fins politiques ou industrielles.
Le catalogage et l'indexation sont deux missions fondamentales du bibliothécaire.
Ils consistent en la description physique et intellectuelle de documents
entrant dans les fonds. Premier problème, le catalogage doit se
faire " ouvrage en main ", apprend-t-on à l'école.
De nouvelles caractéristiques physiques sont de toute évidence
à inventer pour le document électronique. Juste un exemple
pour mettre l'eau à la bouche : quelle mesure pourrait remplacer
la page pour décrire la longueur d'une page web ? Quant à
l'indexation, elle ne pose guère de problème de prime abord.
Aucun obstacle ne s'oppose à la description d'une page web par
des mots-clés. Dans un environnement réparti tel que l'Internet,
les pratiques devraient néanmoins évoluer : la caractérisation
intellectuelle devrait être faite de plus en plus par les auteurs
même des documents, plutôt que par des centres spécialisés
tels que les bibliothèques. Si transition il y a, elle sera certainement
très longue, puisque l'on ne peut que constater actuellement le
peu d'utilisation des balises Meta, des codes spécifiques pour
ajouter des informations identifiant la page web, telles que l'auteur,
un résumé et des mots-clés.
Ces modes de traitement documentaire sont complémentaires à
ce que l'on appelle le " texte intégral ", à savoir
l'indexation systématique de chaque mot de chaque document, sans
tenir compte du poids des différents concepts. Le texte intégral
est le mode de recherche le plus répandu sur l'Internet, notamment
au travers des grands moteurs de recherche. Tout internaute ayant un tant
soi peu pratiqué ce type d'outils en aura saisi les risques d'uniformisation,
de nivellement. Les professionnels de l'information - quelque soit le
nom qu'ils portent ou qu'on voudra bien leur donner dans l'avenir - ont
un rôle important à jouer pour redonner du sens dans la masse
d'informations pléthorique disponible sur l'Internet ; pour hiérarchiser
également cette information selon des grilles de valeurs.
Avec le numérique, la notion d'exemplaire est également
malmené. Ce que l'on avait coutume d'appeler " l'effet palimpseste
" sur les documents papier - les ratures, les annotations, les ajouts
en marge - disparaît sur les documents électroniques (9).
De par sa nature numérique, le document électronique est
en outre très facilement copiable : parmi dix copies d'un même
fichier, peut-on encore parler d'un quelconque " original "
? Un développement qui ne lasse pas d'inquiéter les éditeurs.
Heureusement ( !), les parades techniques sont déjà prêtes
: Adobe, fort de l'implantation de son format PDF, vient de commercialiser
un module de sécurisation appelé " Web Buy Merchant
" permettant de restreindre l'accès au document, selon la
politique tarifaire des producteurs.
Des producteurs d'information qui profitent de l'apparition du nouveau
format numérique pour faire valoir leurs droits. Les bibliothèques
sont devenues en quelques mois les coupables de la chute du marché
français
du livre ! Au moment où nous écrivons
ces lignes (avril 2000), près de trois cents écrivains (10)
viennent de signer une pétition à l'initiative du Syndicat
national de l'édition (SNE) et de la Société des
gens de lettres (SGDL) réclamant l'arrêt du prêt gratuit
de leurs ouvrages en bibliothèque, tant qu'un système de
reversement de leurs droits n'aura pas été établi
(les éditeurs revendiquent un droit de 5 francs par ouvrage prêté
!). Dans ce contexte de marchandisation systématique et uniforme,
le livre est évidemment un produit qui ne peut supporter la forme
anormale de communication qu'est le prêt ! Pourtant, le tollé
qui a suivi la déclaration des auteurs en faveur du droit de prêt
(plusieurs pétitions d'auteurs et de bibliothécaires en
faveur du libre accès à la culture) montre qu'un véritable
débat de société s'ouvre. D'autant que derrière
la querelle du droit de prêt se profilent d'autres batailles qui
se joueront cette fois à l'échelle de la planète
: le verrouillage des fichiers de documents et des systèmes de
livres électroniques. Avec pour perspectives le cloisonnement de
la culture par des techniques hétérogènes d'accès
et la disparition progressive d'une ambition politique en vigueur dans
les pays occidentalisés depuis la fin de la Seconde guerre mondiale
: l'accès de tous à la culture.
Alors que la " nouvelle économie " se met en place, avec
ses bataillons d' " empires " concentrés et de "
barbares " menaçants, les bibliothèques et archives
continuent à assurer leur mission de pérennité du
savoir. Elles fixent une information qui est devenue le carburant du nouveau
monde, par le biais de rachats fusions et prises de participation. Centres
de la subversion, ils sont les freins consciencieux du fol emballement
numérique de notre société.
(1) Mike Lesk, Practical Digital Library, Morgan Kaufman Publishers,
1997.
(2) www.bmlisieux.com
(3) www.cg53.fr
(4) www.gutenberg.net
(5) On excusera le néologisme hasardeux, dans l'attente que les
pratiques entérinent un terme plus adéquat.
(6) Le propos de cet article n'est pas d'aborder la vaste question des
droits d'auteur remis en cause (mais non bouleversés) par la numérisation.
Celle-ci est pourtant transverse au développement des documents
numériques.
(7) Auparavant, seul le numéro IP servait à désigner
un serveur connecté à l'Internet. Au début des années
quatre-vingt, le système DNS a permis de remplacer la suite de
chiffres quelque peu absconse (255.255.255.255, par exemple) en nom composé
plus mnémotechnique (www.duschmoll.com).
(8) Ne pas rater le site officieux des " Amis du Président
de la république ", sur le frontispice duquel on peut lire
: " Ça m'en touche une sans faire bouger l'autre ".
www.elysee.org
(9) Sauf dans les dernières versions des traitements de texte et
des logiciels de Ged (Gestion électronique de documents) qui s'efforcent
de conserver un historique des modifications apportées à
un document, voire permettent des annotations extérieures au document.
(10) On y retrouve des plumes renommées : Francis Balle, Emmanuel
Carrère, Didier Decoin, Jean Delumeau, Eric Holder, Plantu, Alain
Robbe-Grillet
|