Stéphane Chaudiron

« la recherche a été trop longtemps poussée par la technologie »

olivier roumieux - octobre 2001 (Archimag)

Stéphane Chaudiron est maître de conférences en sciences de l’information et co-directeur du département des sciences de l’information et de la communication de l’université Paris X. Il a co-présidé le dernier colloque de l’Isko (International society for knowledge organization) consacré au "Filtrage et résumé automatique de l’information sur les réseaux". Il fait le point sur ces technologies pour Archimag.

Archimag. Pouvez-vous nous présenter en quelques mots l’Isko ?

Stéphane Chaudiron. L’Isko est une société savante créée en 1989 à l’initiative de chercheurs allemands, principalement Ingetraut Dahlberg, et c’est en décembre 1996 que le chapitre français s’est formé sous l’égide de Jacques Maniez, une figure importante de l’ingénierie documentaire en France. Son objectif est de regrouper à la fois des chercheurs universitaires et des professionnels. Initialement, l’association s’est constituée autour de la question de la classification de l’information. Mais très rapidement elle s’est intéressée aux problèmes d’accès et de stockage de l’information, d’organisation de la connaissance. Même si les sciences de l’information sont le noyau dur de la société savante, nous avons des membres qui viennent de la linguistique, de l’informatique, du génie documentaire. Toutes ces personnes partagent la même préoccupation de s’intéresser aux technologies de traitement de l’information, mais également aux processus et à l’impact de ces technologies sur la pratique quotidienne.

En quoi consistent les technologies de filtrage et de résumé automatique de l’information ?

Le titre du colloque pourrait laisser penser qu’il ne s’agit que d’un problème technologique. En fait, nous avons tenté de faire se réunir des "techniciens" avec des gens qui s’intéressent plus à l’impact des technologies, aux conditions de "réception" et d’utilisation des systèmes techniques. Compte tenu de la croissance de l’information sur les réseaux et des problèmes de surinformation auxquels sont confrontés les praticiens, la question du filtrage, ce que l’on appelait auparavant la diffusion sélective de l’information, et le résumé automatique sont deux aspects importants sur lesquels nous souhaitions travailler à l’occasion du troisième colloque d’Isko France.

Comment se positionnent ces deux technologies ?

Elles sont complémentaires. Le filtrage, c’est la possibilité de traiter un flux d’informations entrant, de le passer dans un "tamis" qui corresponde aux préoccupations de l’utilisateur et de n’en retenir que les informations pertinentes. Cette gestion doit se faire de plus en plus en temps réel avec un tamis qui n’est plus seulement constitué de mots-clés, mais de la représentation des besoins réels de l’usager. Nous avons exclu de notre colloque la problématique du filtrage telle qu’il est employé pour les images pornographiques. Il ne s’agit pas d’exclure des informations mais au contraire de retenir les plus pertinentes. On a parlé de l’ensemble des technologies qui permettent ce filtrage, au premier rang desquelles se situe l’ingénierie linguistique. Car même si nous avons abordé des supports comme la vidéo, nous avons essentiellement parlé des documents textuels.
Le résumé automatique est lui un terme un peu galvaudé. Certains vendent sous cette appellation une simple extraction de mots. Ce que l’on sait faire depuis les années cinquante. Au sens où nous l’entendons, il s’agit de régénérer un texte avec toutes les contraintes syntaxiques spécifiques aux langues. Il y a une phase d’analyse et d’extraction du sens puis une phase de génération d’un texte avec ses contraintes discursives, ce qui fait du résumé un objectif à relativement long terme.
On peut utiliser d’autres technologies - probabilistes, statistiques - comme c’est le plus souvent le cas dans les logiciels du commerce ; mais dès qu’on doit affiner le processus, il y a nécessairement traitement linguistique au niveau sémantique. Pour identifier les idées dominantes d’un texte, on peut travailler soit sur l’analyse des mots, soit sur celle des marqueurs linguistiques. Ces derniers sont des indices textuels - comme des conjonctions - qui dénotent l’enchaînement des énoncés et leur hiérarchisation. On recense les marqueurs dans des dictionnaires particuliers, et la rencontre d’un marqueur déclenche une action de retenue ou de rejet des énoncés. Les marqueurs que pose l’auteur lorsqu’il écrit son argumentation - « ainsi, en revanche… » - jouent ainsi le rôle de filtres qui sont utilisés par le logiciel. Le cas typique, c’est de supprimer ce qui suit dans une phrase « par exemple », parce que l’on a posé que ce devait être moins important que la phrase précédente.

Quelles tendances avez-vous pu dégager de ce colloque ?

Au-delà du colloque, les deux points clés actuels sont la constitution de corpus - textes, images et sons - et l’évaluation. Deux points liés car on ne peut pas faire d’évaluation d’outils si l’on n’a pas des corpus de référence. Autre problématique relativement récente : l’évaluation des technologies selon les usages.
La recherche dans ce domaine a été en effet trop longtemps poussée par la technologie. On n’accordait pas assez d’intérêt aux besoins réels des utilisateurs. Pendant très longtemps on a couru après le logiciel capable de tout faire, sans s’intéresser aux contextes d’usage. Je crois que c’est la notion clé qui fait qu’actuellement on dispose de logiciels qui fonctionnent mieux. On modélise les pratiques réelles des usagers sur les plans linguistique, informationnel et cognitif de façon à ce que les logiciels prennent mieux en compte ce que veulent les utilisateurs. C’est pour cela qu’il faut qu’il y ait un dialogue permanent entre ceux qui créent la technologie et ceux qui s’intéressent aux contextes d’usage, aux critères d’évaluation.

Où en sommes-nous sur le plan des applicatifs ?

Le problème est de savoir selon quels critères on juge des avancées. Si le critère est l’augmentation de la productivité en entreprise, on peut effectivement utiliser certains logiciels pour faire des choses plus vite et traiter plus d’informations qu’auparavant. C’est le cas de la traduction automatique : même si la qualité est encore moyenne, voire médiocre, on peut dans de nombreux cas avoir des résultats. En ce sens, de nombreux logiciels d’ingénierie linguistique donnent des résultats très intéressants.
En revanche, du point de vue de la recherche en linguistique formelle et informatique, il y a encore de nombreuses années de recherche pour obtenir des logiciels satisfaisants tous les besoins.
Ceci dit, pour ce qui concerne le résumé automatique, on peut très bien se satisfaire dans un contexte de veille d’avoir un aperçu du contenu du document.

Quels sont les freins qui subsistent au développement de ces technologies ?

Il y a un premier problème au niveau des modèles de langage. Des logiciels fonctionnent sur des sous-langages extrêmement limités, comme les langages techniques. Mais le problème réside dans leur extensibilité. Il y a encore d’énormes travaux à faire en linguistique descriptive, même pour des langues relativement bien couvertes comme le français ou l’anglais. D’autant plus que les langues sont par définition des objets vivants, avec de nombreux néologismes à prendre en compte, des sens nouveaux qui apparaissent et d’autres qui disparaissent.
Autre problème, celui des logiques d’usage. A partir du même texte entrant, on ne fera pas le même type de résumé si l’on s’adresse à un lycéen ou à un professionnel.
On s’aperçoit ainsi qu’il n’y a pas de "roadmaps" en ingénierie linguistique, pas de plans d’évolution à moyen ou long terme. La vision strictement guidée par la technologie conduit à des aberrations. On ne peut pas travailler sur la langue comme on travaille sur les semi-conducteurs.

A-t-on ressenti un "effet Internet" dans le domaine du filtrage ?

L’effet le plus immédiat est la convergence des médias : on doit pouvoir gérer aujourd’hui du texte, mais également des séquences vidéo. Deuxième effet, nous avons sur Internet des pratiques langagières extrêmement différentes en fonction desquelles il faut adapter les logiciels. Nous ne sommes plus dans un cadre d’usage bien défini, comme par exemple celui des documentalistes professionnels. Nous devons être à même d’offrir des réponses techniques à des gens qui sont de cultures différentes et qui ont des pratiques langagières différentes.

- Olivier Roumieux, page créée le 1er juillet 2001 -