renaissance de la linguistique

un seul mot : Internet

olivier roumieux - novembre 2000 (Archimag)

Au royaume de l'information non structurée, la recherche en langage naturel fait valoir ses atouts. Jeunes ou anciens, tous les éditeurs du domaine placent Internet au cœur de leur stratégie.

Serait-ce vraiment dans les vieux pots que l'on fait la meilleure soupe ? Il semble bien en effet que l'Internet est en train de remettre au goût du jour - et du public - des technologies linguistiques que d'aucuns avaient presque oubliées. Depuis l'avènement du réseau des réseaux, ce ne sont plus seulement les professionnels de l'information qui connaissent les affres de la recherche d'information, mais bien la cohorte d'internautes fraîchement débarquée sur les rivages du cyberespace. Effet de masse oblige, les insuffisances du texte intégral sont vécues quotidiennement et les ressources de l'ingénierie linguistique font de nouveau rêver. Mais les temps changent, les ténors du domaine ont quitté les laboratoires pour goûter aux subtilités du marketing.
Sur ce plan, c'est certainement le petit dernier, Albert, qui se montre le plus agressif. Créée en mars 1999, la jeune start-up s'enorgueillit d'avoir déjà " levé " 12 millions de dollars (environ 90 millions de francs) et de disposer de prestigieux actionnaires tels que le groupe TAG (à hauteur de 25 %) ou Fast&Transfer (à hauteur de 4 %), éditeur du moteur Alltheweb.com. L'effectif initial de 10 personnes devrait être décuplé d'ici six mois.

les limites de l'approche sémantique

Sur les origines de la société, on comprend vite qu'on en saura peu. Tout juste si l'on apprend que c'est un " Jean-Michel " (Livowsky) qui se cache derrière " Albert " : un spécialiste de sécurité informatique et de cryptologie, à la fois psychanalyste et psychologue ! Question technologie, mais là c'est une loi du genre, l'ambiance n'en est pas moins obscure. Albert est en fait une interface d'interrogation en langage naturel (" everyday language ") sur des corpus de données en texte intégral. L'ingénierie linguistique porte donc principalement sur l'analyse des requêtes. Le système analyse la langue employée dans la question, il segmente celle-ci en mots dont il vérifie l'orthographe. Il en extrait ensuite des concepts qui donneront lieu à des hypothèses de recherche. Quasiment pas d'analyse sémantique : " Nous considérons que l'approche purement sémantique a montré ses limites, sinon les gens qui en font depuis vingt ans auraient percé ", explique Laurent Hulin, le " Business development Manager " pour l'Europe. En revanche, la notion d'apprentissage est privilégiée, particulièrement au travers d'une analyse fine des questions et des profils des utilisateurs qui les posent. L'efficacité du système s'accroît ainsi au fur et à mesure de son utilisation. Côté stratégie, Albert est ambitieux : les yeux tournés vers la statue de la Liberté (15 personnes travaillent déjà à New York), et fort de son partenariat avec Fast, il ne vise pas moins à proposer une recherche sur le Web à des grands portails verticaux (Albert est interrogeable sur le site du fournisseur d'accès Free). Ses capacités de " profiling " le destinent tout naturellement à améliorer les relations des entreprises avec leur clientèle. Paradoxalement, les amis d'Albert ne ciblent pas prioritairement les sites de commerce électronique, estimant leur technologie plus appropriée aux " supermarchés agrégatifs " qui tireront un meilleur parti de fonctionnalités de recherche avancées.
Un sentiment que ne partage visiblement pas Philippe Laval, le dirigeant de Sinequa. Ce docteur en informatique théorique et fondamentale manie aujourd'hui avec aisance les concepts marketing de " cross selling " et " up selling ". Les sites web marchands sont en effet une cible désormais convoitée : les 3 Suisses, Leroy Merlin ou encore Logiciels Center utilisent déjà des fonctions linguistiques pour mieux vendre leurs produits. Mais avant d'adopter comme slogan la " Net linguistic company ", Sinequa s'appelait Cora et constituait un des fleurons de l'ingénierie linguistique française, doté d'une expérience d'une quinzaine d'années. Plus connue pour le domaine exotique de ses recherches, le langage naturel, que pour le nom de ses produits, Cora est tout à fait symptomatique de ces sociétés brillantes technologiquement mais quasiment muettes commercialement parlant. Changement radical de cap cette année : exit le nom trop connoté dans le grand public et conversion aux valeurs montantes des start-up.

pragmatisme

Sinequa ne veut plus évangéliser les foules, mais tout simplement vendre ses produits. Son dirigeant affiche désormais un pragmatisme de bon aloi : " pour que nos technologies se vendent bien, il faut montrer au client comment il va gagner de l'argent avec, il faut également accepter de n'être qu'une brique d'un ensemble plus complet. " L'idée originelle, c'est de décliner une technologie existante et fonctionnelle, Intuition, selon des niches de marché identifiées. Et toujours orientées Internet, quitte à réajuster parfois le tir. On oublie ainsi le moteur de recherche généraliste sur le Web, annoncé au printemps dernier (cf. Archimag n°135). Une tâche apparemment trop gigantesque. Plutôt que de tirer la couverture à soi, Sinequa tente la dissémination, au travers de son nouveau produit ProIndex, un service d'indexation à distance de sites web, avec la valeur ajoutée d'un moteur sémantique. Sans oublier de décliner ce produit dans une version gratuite, adaptée aux sites personnels.
Une stratégie de diversification sur laquelle s'est déjà cassé les dents Technologies-Gid avec Spirnet, une version simplifiée de son produit phare, Spirit, à l'attention des webmasters. Recentrage donc autour de Spirit, dont la version 2.1 a été présentée lors du dernier forum de la Geide. Autour de son produit unique, ce pionnier de l'ingénierie linguistique est peut-être celui qui semble le plus fidèle à son credo d'origine. Sa technologie est consultable sur Internet, notamment sur le site de la Cour des Comptes, mais les ambitions sont ici plus nettement commerciales, avec la mise en place d'un réseau de ventes indirectes en France et à l'étranger.

- Olivier Roumieux, page créée le 1er juillet 2001 -

Valid HTML 4.01! Valid CSS!