Le Médiéviste et l’ordinateur
Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies
n° 41 (Hiver 2002) : L’apport cognitif

Représentation documentaire et construction de la connaissance

Marie-Hélène Antoni
Université de Poitiers, Faculté des lettres et langues
Marie-Helene.Antoni@mshs.univ-poitiers.fr
En collaboration avec Amandine Six pour la présentation de logiciels

Résumé

Le management de l’information prend des formes nouvelles, de sa production à sa diffusion, de son stockage à son exploitation, qui, quel qu’en soit l’objectif (scientifique ou commercial, par exemple), passe par une représentation synthétique, et la possibilité de « naviguer » rapidement dans les documents. Ici convergent diverses interrogations, relevant de l’indexation et de la structuration d’un fonds documentaire (sémantique et statistique), de sa visualisation synthétique à des fins d’exploration (interfaces et liens hypertextuels). Une question sous-tend toutes ces problématiques : celle des différentes étapes de la représentation amenant à la « préhension » de l’information disponible, préhension préalable à toute utilisation.

Mots-clefs

Analyse documentaire, linguistique, statistique, fouille de textes, navigation hypertextuelle.

 

1. Représenter le territoire : la recherche du sens ou s’orienter

1.1. Terra Incognita

La disponibilité d’une information de moins en moins chère et de moins en moins contrôlée bouleverse les problématiques traditionnelles de l’accès à l’information : il doit être rapide, synthétique, multilingue. L’enjeu est la redistribution des cartes de l’accès à l’information, c’est-à-dire à la connaissance, au savoir, mais aussi à l’information décisive sur le plan économique. Le management de l’information prend ainsi des formes nouvelles, de sa production à sa diffusion, de son stockage à son exploitation. Quel qu’en soit l’objectif (scientifique ou commercial, par exemple), l’exploitation de ces masses d’information passe par leur représentation synthétique, et la possibilité de « naviguer » rapidement dans les documents.

Ici convergent diverses interrogations, relevant, pour parler bref, de l’indexation et de la structuration d’un fonds documentaire d’une part, de sa présentation-représentation synthétique à des fins d’exploration d’autre part.

Dans les réflexions méthodologiques, on voit se rejoindre les interrogations sur la modélisation :

– des données textuelles (modélisation statistique ou conceptuelle — sémantique —) ;

– des processus psychologiques mis en œuvre lors de la circulation dans l’information.

Dans les pratiques, on voit aussi se rejoindre les problématiques

1. de l’indexation documentaire, reposant soit sur un ensemble d’index attribués manuellement et sensés être les plus représentatifs d’un document, soit sur des index construits automatiquement sur la base de déclencheurs linguistiques par exemple (le thésaurus est alors vu comme le dépositaire du « bon » point de vue sur le document) ;

2.  de l’indexation informatique, proposant des ensembles de chaînes de caractères extraites de leur environnement pour être stockées et analysées statistiquement par ailleurs ;

3. de l’ergonomie des outils de visualisation, autre aspect du problème envisagé ici : celui de la circulation-navigation dans l’information, rendue possible par la succession de différents procédés de représentation.

C’est dire que la « réduction » d’un fonds documentaire à un ensemble d’informations synthétiques, thématiques et/ou bibliométriques, caractéristiques de chacun des documents [1] ne suffit pas en soi à exploiter les masses d’information analysées. Elle doit être rendue accessible par le biais d’interfaces graphiques proposant des présentations-représentations, cartes ou autres, qui reflètent l’organisation des documents entre eux [2].

La réduction d’une masse documentaire qui ne peut être traitée manuellement à un ensemble d’indicateurs significatifs (qui, eux-mêmes seront déjà assez volumineux pour justifier le recours à l’outil informatique) ne fait que précéder l’étape d’analyse et d’interprétation : en effet, seule la représentation synthétique [3] de l’information en rend la saisie possible, autorise une navigation efficace sans laquelle une masse documents, si riche soit-elle, ne dit rien.

Il ne s’agit pas ici d’entrer dans les détails des différentes solutions informatiques mises en œuvre, ni même de faire une typologie des modes de relation à l’information, mais bien plutôt de remettre en perspective les pratiques quotidiennes mues par des contraintes d’adaptation à des contextes et des problématiques particulières et toujours différentes : mettre à distance, re-saisir, réfléchir l’impact des choix de modélisation de l’information, choix induits par le désir de l’exploiter, d’en extraire la substantifique moëlle. Or on le sait bien : le « substantifique » se définit par la lecture faite en vue d’un objectif. Prenons le cas d’un laboratoire de recherche ; une seule et même information ne concernera pas au même titre ses différents acteurs : le chercheur qui fait une expérience, le directeur de laboratoire qui veut infléchir une stratégie de labo, le financier qui se demande s’il doit continuer à investir voudront tous avoir connaissance des activités d’autres laboratoires. Mais cette information prendra des sens tout différents, les paramètres n’auront pas la même valeur et ne joueront pas le même rôle.

1.2. Les plans de la forteresse du savoir

S’orienter parmi les ouvrages, la problématique n’est pas récente en soi : une illustration traditionnelle de cette nécessaire synthèse est le fichier de la bibliothèque, clef d’accès aux documents, sorte de « métaphore réduite » d’un champ de connaissance comme de l’ordonnancement matériel des ouvrages. La tradition se charge de définir les modalités de cette « réduction acceptable » de l’information :

– représentation des ouvrages par réduction de type linguistique, motivée par l’expertise du bibliothécaire ou du documentaliste : ici une description bibliométrique avec ou sans mots-clefs ;

– représentation du fonds par réduction de type cartographique : ici les informations vont refléter la « structure de l’espace », la répartition des ouvrages sur les rayonnages.

De fait, si l’accès massif à de la documentation électronique a très nettement modifié le mode de constitution d’un fonds documentaire, ce n’est pas toujours le cas pour le mode de représentation associé : la description des ouvrages reste souvent calquée sur la pratique classique de la documentation, les bases de données documentaires ont des champs structurés pour le recueil d’informations bibliométriques et d’index attribués manuellement (avec ou sans recours à des thésaurus donnant la description-représentation du champ scientifique abordé). Pour ce qui est de la circulation dans le fonds documentaire, il est le plus souvent implicitement ou explicitement convenu que c’est par l’affinement progressif de la requête (et le lien avec la classique recherche en bibliothèque est ici patent) que se constitue le corpus final de documents : restreint et pertinent. De fait, les termes de la requête servent de filtres efficaces, reposant sur la sélection effectuée lors de l’achat des ouvrages et sur les principes connus-partagés du chercheur et du bibliothécaire.

Cette conception de la recherche d’information va de pair avec une conception du savoir, construit par stratification, conçu comme une forteresse que l’on doit conserver, protéger, valoriser, sur laquelle toujours plus de savoir s’ajoute, s’empile, s’améliore. La connaissance de ce savoir s’organise, s’intériorise comme un espace vécu dans lequel on peut circuler. C’est d’ailleurs ce que l’on nous rapporte de la transmission des savoirs médicaux dans l’ancienne Égypte ; la déambulation dans le temple et la lecture des colonnes permet de se faire une carte mentale des savoirs, la mémorisation est élaborée par le lieu même de la consultation.

On pense ici aux réflexions d’un Armand Frémont sur la définition des régions, opposant les régions sédentaires aux régions nomades : on est là en présence d’un savoir que l’on pourrait dire « sédentaire », d’un territoire ancré, délimité.

Or ce « modèle » s’avère inopérant dans un contexte où l’information à laquelle on souhaite accéder ne provient pas d’une et une seule base de données indexées : l’information pléthorique n’est pas filtrée, ni structurée, ni qualifiée. Dans ce contexte, le recours aux mots-clefs successifs, aux variantes graphiques et autres ruses du « chercheur avancé » sur le web donne les résultats que l’on sait : très bruitée — 94 % de bruit (c’est-à-dire d’information non pertinente) ont été observés sur des requêtes telles que « VisualBasic ». Avant même de penser à raffiner son choix parmi les documents, il est nécessaire d’acquérir une « vue d’ensemble » et, partant de là, de commencer à construire les filtres permettant un tri destiné à des fins d’études détaillées. L’information aujourd’hui porteuse de connaissance se comparerait plus aisément à une « région nomade », région fluide, mouvante, en constante redéfinition, et reposant pourtant sur des points partagés (des ancres ?), incontestablement présents.

1.3. Un territoire fluide

Une autre vision de l’information se dessine : à une information sur laquelle on doit continuer à « capitaliser », s’ajoute une information dont le cycle de vie peut être très court, mais qu’il faut néanmoins prendre en compte.

Sur un domaine identifié, par exemple la recherche sur les formes d’énergies, on pourra partir d’un « état des lieux capitalisable », cette information-là devra être qualifiée, structurée, gardée en mémoire. Mais l’information pertinente, sans laquelle on ne peut continuer à avancer, peut être essentiellement « différentielle ». Ce qui est particulièrement pertinent n’est pas forcément le « lieu commun, bien connu » du domaine, c’est tout ce qui se distingue, les idées neuves, les localisations de nouvelles sources, les alliances entre laboratoires au cours des dernières années, les prises de participation d’entreprise récentes, le nom des personnes incontournables à l’instant « T », etc. Cette information n’est pas forcément de celles qu’il faut garder, en tout cas certainement pas sous une forme intégrale : elle est par nature mouvante, vite obsolète. Il s’agit d’en extraire rapidement la substantifique moëlle. Pour cela, on peut simplement vouloir mesurer des flux, guetter l’apparition de « symptômes de mutations », mesurables par la distance entre ce qui apparaît et ce qui était déjà bien cerné : ce peut être l’indicateur d’une nécessaire vigilance [4].

Quoi qu’il en soit, on ne peut qu’errer dans un espace que l’on ne se représente pas. Il faut donc bien procéder aux nécessaires opérations de construction. Or il n’y a pas de construction d’un espace avéré sans représentation, pas d’interprétation sans représentation, pas de mémorisation sans représentation. Représentation d’un domaine de connaissances, d’un espace mental, d’un ensemble d’informations, représentation permettant l’accès et la mobilisation…

2. Le représenté et ses représentants

2.1 Représentation et représentativité « prototypique » linguistique

Lors d’une consultation en bibliothèque, le quêteur part du principe qu’il peut maîtriser le processus d’accès à l’information, et que les documents disponibles ont été qualifiés, validés, ont franchi toutes les étapes des comités de lecture, des éditeurs, des acheteurs avant de venir jaunir et s’écorner là, à portée de main sur les rayonnages. À défaut d’être exhaustif, l’ensemble est représentatif d’un certain état de l’art, qu’il faudra peut-être actualiser, mais les moyens de s’y retrouver sont clairs, codifiés, et le « représenté » est lisible : il fait partie de ce connu-partagé qui permet de s’orienter sereinement, en sachant pourquoi on fait tel choix. En soi déjà, la recherche d’un titre peut construire du sens, faire sens.

Par contre, à la suite d’une requête (sur le web ou chez un fournisseur de données), le quêteur se voit enseveli sous une masse de données brutes, informes, dont l’exploitation efficace présuppose qu’on lui donne forme, afin de donner une direction, un sens, du sens, à l’investigation. Il faut dans un premier temps savoir de quoi cette masse est représentative.

La tentation première sera de chercher à indexer l’ensemble de ces documents, avant de les traiter : c’est ce qui explique la structure des bases de données documentaires prévoyant un champ dédié à l’attribution d’index. Mais les récentes mutations des technologies liées à la circulation de l’information font apparaître les limites d’une telle attitude : on voit bien la difficulté qu’il y aura à appliquer efficacement des index sur lesquels il faudra constamment faire des mises à jour, et ce pour une information qui sera massivement obsolète, à peine sera-t-elle qualifiée. La quantité en soi amène en effet les questions de temps de traitement, de personnes qualifiées vouées à cette tâche, et donc tout à la fois la question du coût et de la fiabilité de l’indexation. En effet pour être exploitable, l’indexation doit être rigoureuse et extrêmement homogène. Or le recours à un index tel que CAFÉ pour désigner la matière brute, la boisson ou l’établissement, ne relève pas du cas d’école, même lorsque les thésaurus ont été très contrôlés, et que les poseurs d’index comme les poseurs de question sont consciencieux et entraînés. On peut bien sûr penser à l’utilisation parfois extrêmement satisfaisante, d’outils d’indexation automatique. Mais il s’agit une fois de plus d’environnements parfaitement cernés.

Dans le cas qui nous occupe, où l’on ne présume ni de la source d’information, ni de celui qui veut l’exploiter, cette question est d’autant plus délicate qu’elle se trouve corrélée au problème théorique de la définition du bon index, et du bon thésaurus d’indexation : il doit être, autant que faire se peut, « pérenne  » et repose donc par définition sur la vision de l’information «  illustration » d’un savoir cartographié et décrit sous une forme stable, organisée. Or, un thésaurus stable et bien fait ne l’est généralement que dans un contexte extrêmement précis, il reprend bien souvent une pratique dont l’intention est difficilement transposable : ainsi, la codification internationale des maladies (CIM10) ne semble pas poser de problèmes aux hospitaliers. Les médecins de ville par contre considèrent qu’elle ne permet pas de rendre compte de leur pratique. Les questions sont donc épineuses et s’entremêlent : sur quel thésaurus se baser, doit-il rendre compte du domaine de référence ou du fonds documentaire, et comment considérer les index posés sur chaque document : décrivent-ils la façon dont le document s’insère dans le champ décrit par le thésaurus, ou bien décrivent-ils la façon dont le document s’insère dans le fonds documentaire localement constitué ? En effet, indépendamment du fait qu’on souhaite rapporter un document à un corpus, en mettant en avant ce en quoi il est le reflet d’une structure organisée, il est clair que les index auront une valeur toute différente selon les traitements déjà effectués : dans un corpus sur les pathologies génétiques, le mot DIABÈTE aura le pouvoir de distinguer un document d’un autre, portant sur une autre pathologie. Ce pouvoir discriminant fort n’existera plus dans un corpus ne traitant que du diabète : il fera partie des plus petits dénominateurs communs. Par contre, l’index DIABÈTE continuera à dénoter les mêmes rapports au thésaurus de référence.

Ces différences dans la valeur attribuée à l’index sont d’ordre statistique, et c’est bien le type de traitement qui s’impose tout naturellement. La question est de savoir sur quoi faire porter ces outils en présence de données non codées.

2.2 Représentation et représentativité statistique

Cette problématique du non-codage des données va de nouveau s’exprimer aux deux niveaux du document et de l’ensemble des documents.

Pour ce qui est de ce dernier point, la question est celle de la représentativité de cet ensemble hétéroclite bien souvent, et très peu contrôlé dans l’ensemble. Quelle stratégie adopter afin que l’interprétation de la quantité amène à la construction d’un indicateur de qualité ? Comment intégrer le fait que l’utilisateur des résultats ne se contentera pas d’indicateurs statistiques, et se souciera juste de savoir si la segmentation, la classification, le clustering, toutes techniques équivalentes de son point de vue, lui permettent de prendre ses marques dans la collection disponible ? À partir de quelques milliers de documents, on peut considérer que la masse documentaire est représentative de quelque chose, même si personne n’a fait le travail nécessaire nous permettant de déterminer de quoi cette masse est l’expression. Encore faut-il en dégager les informations pertinentes. Le problème est dès lors de circuler dans un fonds constitué ; ce qui importe est de dégager les structures de cet ensemble de connaissances ; non pas de voir comment il reflète une représentation qui lui est externe, mais bien de dégager une ou des structures internes qui permettront de s’orienter vers de l’interprétation. Voir en quoi il est le reflet d’un état de connaissance du monde mis en forme par un thésaurus devient tout à fait secondaire. Dès lors, on peut s’abstraire dans un premier temps [5] de toute tentation de projection d’un savoir sur les données, il n’est pas nécessaire de disposer d’un thésaurus de référence, ni de connaissance spécifique du domaine concerné.

La représentation de ce fonds par réduction va pouvoir s’exprimer le plus simplement du monde, comme étant la « simple » compression de la séquence originale. Ce qui est ici particulièrement intéressant, c’est que l’outil statistique semble admis comme garant d’une « neutralité » dans la réduction : la synthèse, agrégation de matériaux bruts, réitère, restitue le monde sans l’interpréter… Ce qui est en soi fort douteux.

Cette « neutralité » rappelle celle que, longtemps, on a attribué aux cartes de géographie. La carte vue comme une médiation qui permet de s’approprier les données, de s’y retrouver, d’y circuler, vue comme un outil filtre neutre, est largement présente mentalement. Or on sait bien les particularités des cartes françaises qui visent à donner une image précise du territoire, de ses éléments composants, de ce qu’on y trouve et de ce qu’on peut y faire [6] : on est là très loin d’une carte ayant pour seul objectif de décrire un moyen d’accès. Et l’on saura choisir entre les divers types de cartes disponibles suivant le type d’excursion envisagé. La synthèse statistique est elle aussi une construction de l’objet réduit qui suppose un filtre sur le monde. En termes de pratiques statistiques, il faut bien se poser la question de la nature des données à segmenter, si l’on veut entreprendre des calculs qui font sens. Il faudra clairement aborder la question du modèle de données, et du choix de la (meilleure) méthode de calcul (fréquentiel, relationnel…) permettant de les représenter conformément à leur nature (matrices creuses : choix de la formule) et aux objectifs visés (choix des seuils d’agrégation et de purge).

La question redevient alors celle des descripteurs associés aux documents, dans un contexte où l’on a renoncé à faire de l’indexation thésaurique. Comment transformer ce flux de données non codées en un ensemble analysable par les outils statistiques ? La réponse semble avoir peu à peu émergé d’une pratique connexe : celle de l’interrogation de documents n’ayant pas reçu de description validée par des experts. La solution adoptée est alors de faire de la recherche sur une indexation full-text. Les outils se sont peu à peu sophistiqués, intégrant la logique booléenne ou les expressions régulières : les environnements de Gestion Électronique de Documents deviennent des environnements de Gestion Électronique de Contenus. De fait, une simple liste de chaînes de caractères peut être vue comme une première «  réduction  », une première compression de la séquence originale et, à ce titre, représenter le document ; on peut même la considérer comme tout à fait représentative, puisque exhaustive. Le non-statisticien va bien sûr considérer qu’il s’agit là d’un étrange point de vue, la représentation d’un texte étant liée pour lui à la représentation synthétique de son sens et non à la synthèse des caractères graphiques (lettres de l’alphabet et autres) qui le composent. Et il lui faudra, encore aujourd’hui, un certain temps avant de simplement pouvoir se pencher sur les résultats obtenus afin de se faire une opinion d’utilisateur.

La pratique d’internet et des moteurs de recherche fait peu à peu accepter cette idée : les chaînes de caractères sont considérées comme des index en soi, que l’on pourra retrouver, et qui permettront de retrouver le document ou le paragraphe pertinent. Cependant, pour illustrer la difficulté qu’il y a à tenir une telle ligne, nous prendrons le cas de l’interrogation de bases littéraires en français de la Renaissance. La personne tentée de voir dans quels contextes apparaissent les occurrences du mot NUIT (que le cas d’école ne cache pas la forêt), serait bien en peine de faire avancer sa démarche : pas une fois on ne trouve nuit, ou nuits, mais toujours nuyct, nuictz, nuyts, etc. Il s’agit ici d’un cas particulier de l’hétérographie. Mais la situation est la même pour toutes les variations orthographiques, abréviations et autres.

C’est assez dire que cet outil n’est pas d’une grande aide pour le non-spécialiste : l’accès aux informations dépend entièrement du degré de maîtrise du chercheur, de ses connaissances préexistantes sur les particularités du document qu’il fouille, et de sa bonne appréciation des capacités de l’outil de recherche.

Très souvent pourtant c’est bien la chaîne de caractères qui est retenue comme base aux traitements, qu’il s’agisse de recherches, ou de comptages : les comptages vont être effectués en attribuant le même statut à toutes les unités. A priori, le, article, a le même statut que moteur, un nom. Une information sémantiquement riche (ici précise sur le plan référentiel) est traitée comme une information sémantiquement pauvre, une information fréquente comme une information rare. On voit déjà que l’on pourra penser à quelques filtres strictement statistiques, qui rendent les services que l’on sait, dans des concordanciers par exemple : éviction des mots brefs (articles, prépositions, adverbes, auxiliaires comptent généralement moins de 4 caractères, suppression de mots présents moins de «  n  » fois, ou plus de « n » fois, création de Stop-Lists de mots dont la valeur n’est pas pertinente… Tels sont les outils qui, associés aux expressions régulières et aux opérateurs booléens, permettent une première approche des contenus des documents.

Mais on reste dans une situation où la qualification du document n’est en soi reliée à aucune vision sémantique du contenu, deux chaînes de caractères non identiques étant le plus souvent simplement analysées comme différentes l’une de l’autre : mangera et mangerai sont différents, au même titre que ou et messenger-ribo-nucleic-acid. Ni plus ni moins. On est donc très loin d’une indexation thésaurique fine, et pourtant, dès que l’on veut penser à une utilisation raisonnée et systématique des outils simples cités plus haut, on n’est pas loin de trouver des questions sensiblement comparables à celles que l’on rencontre lorsque l’on pose des index : quel ensemble de mots retenir, quelle doit être leur fréquence d’occurrence…

2.3 Les couplages et articulations envisageables

On a maintenant tous les éléments permettant de reformuler le problème, et d’essayer d’imaginer de nouvelles stratégies de représentation, même en gardant les deux niveaux déjà nommés : celui du document (ou de la phrase, des unités d’analyses retenues), et celui du fonds documentaire :

– documents (ou unités documentaires retenues comme base à l’indexation, par exemple la phrase) : calcul de l’information descriptive par extraction des meilleurs représentants linguistiques ; création d’index (linguistiques ou non) dépendants du corpus ou représentatifs du domaine scientifique concerné ;

– fonds (ou ensemble des unités documentaires) : représentation synthétique de l’ensemble des documents et de leur organisation (organisation thématique par exemple), afin de circuler efficacement dans l’information ici disponible ; divers types d’interfaces de visualisation d’un fonds documentaire structuré :

– « cartographie classique  » pour les statisticiens, sous forme de classes reliées par des liens ;

– documents regroupés en dossiers dans lesquels on circule par des liens hypertexte ;

– pavages dans lesquels on peut descendre « en profondeur  » pour « zoomer  » sur des structures internes à une classe de document… Dans tous ces cas, les informations utilisées pour la génération de cartes ou dossiers sont qualifiées sémantiquement et statistiquement. Les méthodes pour ce faire vont mobiliser à des degrés très variables les éléments d’expertise linguistique et/ou statistique.

Le premier point est donc celui de la représentation des documents sous forme d’une information « réduite  » et « densifiée  » de façon pertinente d’un point de vue conceptuel linguistique, sans pour autant avoir à décider de la pertinence du choix d’index ou de thésaurus d’indexation dans lesquels puiser cette densification. D’un point de vue linguistique, la piste qui s’impose est celle d’une analyse syntaxique amenant à identifier les unités lexicales sur lesquelles se feront les calculs.

Les traitements linguistiques, donc, ont pour but de construire une première représentation des textes à étudier, représentation densifiée sémantiquement, sans injections de savoir terminologique requérant la lecture éclairée de chacun des documents. Ils reposent essentiellement sur l’utilisation d’analyseurs morpho- syntaxiques [7], qui assignent à chacun des mots rencontrés une étiquette grammaticale (une telle étiquette sera : NFS pour « nom féminin singulier »), et un seul lemme, forme canonique (un peu comme une entrée de consultation dans un dictionnaire classique) sur laquelle on va regrouper toutes les différentes formes qui peuvent être prises par un mot. On peut ainsi regrouper des variantes flexionnelles [ref] (telles que les formes fléchies d’un verbe, mangera et mangerai sur MANGER), des variantes graphiques (clef, clé) mais aussi les abréviations ou formulations synonymes, dans l’absolu ou dans un contexte particulier [8] (diabète de type I = diabète insulino-dépendant). On trouve en effet parfois une grande variété de formulations pour un même concept technique ; entre les formes brèves, les ellipses et les variantes orthographiques, on peut facilement en compter une bonne dizaine. Ce regroupement, comme on le voit, ne concerne pas seulement les formes d’un seul mot, on peut tout à fait prendre en compte des formes composées, ce qui est d’un indéniable intérêt dans les contextes techniques ou de veille : identification de concepts ou de noms d’entreprise, de personnes clés… Le rôle de l’analyseur est donc d’identifier pour une graphie rencontrée le représentant prototypique auquel on souhaite la rapporter et le corpus dit étiqueté est le fonds documentaire de départ, enrichi d’un certain nombre d’informations linguistiques. Par rapport au corpus de départ, il bénéficie, pour la création d’un index, de 2 types d’opérations :

1.  la réduction-densification par regroupement de toutes les formes sous un seul lemme va permettre d’identifier un seul descripteur sémantique, quelle que soit la forme qu’il prendra dans le texte ;

2.  la qualification des occurrences en tant que modalités d’une variable linguistique. L’assignation d’une catégorie grammaticale permet la mise en place de filtres ayant plus de sens que la simple longueur du mot : on pourra par exemple éliminer les déterminants pour privilégier les Groupes Nominaux.

Dans le cas où l’on a opté pour une première phase de traitements linguistiques, c’est ce corpus enrichi qui sert de base aux traitements ultérieurs. En effet, une fois les documents indexés (linguistiquement ou pas), les traitements statistiques vont intervenir : l’objectif de l’analyse classificatoire est de faire émerger, pour un ensemble particulier de données, une structuration optimale en classes. Ainsi, les documents qui « se ressemblent  » d’un point de vue linguistique vont être regroupés dans une même classe, rayonnage d’une bibliothèque virtuelle.

3. Quelques choix logiciels

3.1. « Classification  » de documents et paramétrages dans TextNavigator

Dans le cas de TextNavigator, le moteur de classification utilisé repose sur les principes de l’Analyse Relationnelle des Données (clustering non supervisé) telle qu’elle a été développée par J.-F. Marcotorchino et P. Michaud au centre scientifique d’IBM-France. Le principe en est l’identification d’une relation de similarité entre les documents. Le critère retenu est le critère de Condorcet, qui se prête bien à l’analyse de documents ayant un grand nombre de descripteurs et générant des matrices très creuses. Chaque identifiant de document est associé à un ensemble de descripteurs (ici des variables linguistiques). Le but est alors [9] de maximiser le nombre de ressemblances, c’est-à-dire le nombre de cas où deux documents partagent le même descripteur, et de minimiser le nombre de dissemblances, c’est-à-dire le nombre de cas où un document contient un mot que l’autre n’a pas. Peu à peu émergent des classes auxquelles sont associés des descripteurs (de classe) et pour chaque document, on calcule la classe dont il est le plus proche, classe à laquelle il est intégré. On obtient donc un ensemble de classes caractérisés par des descripteurs linguistiques « fédérants » pour cette classe (le vocabulaire discriminant) et par le vocabulaire le plus fréquent [10]. Pour chaque document, on dispose par ailleurs d’informations concernant les raisons de son appartenance à cette classe, et son degré d’assimilation à cette classe, le premier document cité pouvant être considéré comme le plus caractéristique.

Par ailleurs, la même mesure de similarité, appliquée aux classes, permet de définir des liens que les classes entretiennent entre elles (il faut en effet noter qu’il s’agit d’une méthode de classification non hiérarchique). Les liens interclasses donnent des indications sur des thématiques plus larges, organisées autour de la notion de proximité sémantique.

La pratique de l’analyse des données fait apparaître que la première classification (ou segmentation) est rarement la bonne : il ne suffit pas d’appliquer correctement des méthodes d’analyse quelles qu’elles soient pour que les résultats soient exploitables, c’est-à-dire dans un premier temps interprétables. La ou les premières classifications permettent de se familiariser avec les données et de procéder aux nécessaires réajustements des paramètres de l’analyse, en intégrant progressivement un contexte d’interprétation, un système de pertinence dont la connaissance est préalable à toute interprétation. On peut dès lors travailler sur la définition de variables (ajouts, suppressions, agrégation, filtres sur les modalités), sur leur pondération, ou encore sur les filtres statistiques ou le seuil de similarité exigé pour que deux documents soient considérés comme similaires.

Cette recherche du seuil de similarité est un élément important, afin de déterminer celui qui est « le meilleur », pour ce jeu de données (ou pour toutes données comparables à celles de ce jeu particulier) : la notion de « pertinence du seuil » est ici liée à la contrainte d’interprétabilité du résultat, mais on dispose pour le « cadrer » de deux bornes :

– une borne « basse », calculable mathématiquement [11] ;

– une borne haute, dont la valeur est empiriquement liée au nombre de classes générées : il est aussi difficile de lire et de comprendre quelques centaines de classes que quelques centaines de documents.

Augmenter excessivement le seuil de similarité amène à un émiettement de la classification, qui va de plus en plus tendre vers la détection de doublons : c’est le cas avec un seuil de 100%, ce qui peut être très utile lorsqu’on récupère des résultats de requêtes en provenance de plusieurs bases, en cours de constitution de fonds documentaire, ou encore lorsqu’on veut veiller à la cohérence d’une base documentaire après des opérations de mise à jour.

Une s pourra prendre tout son sens lorsque l’on connaît déjà très bien l’ensemble des individus : si l’on sait suffisamment de choses sur la structure des données que l’on étudie, telle petite classe isolée peut prendre un sens très éclairant alors qu’elle ne faisait « à froid » que semer la confusion la plus totale quant à l’interprétation des résultats. Une partition optimale peut donc varier au cours d’une étude. A un instant donné, elle est celle qui permet une interprétation des résultats qui soit d’une part cohérente, d’autre part porteuse d’informations non triviales. Cette notion va donc dépendre du niveau de compétence de celui qui interprète les résultats, compétence par rapport au domaine concerné, au corpus traité, à la démarche de construction d’une lecture de corpus classifié en tant que tel. La génération de mots-clefs discriminants associés d’une part aux documents dans une classe, d’autre part à la classe elle-même revient à constituer des outils d’aide à la lecture, et à construire une compétence liée au contenu des documents. Cette méthodologie de découverte itérative de structures a été par exemple employée pour faire des classes d’unités linguistiques au regard de leur propriétés syntaxiques.

Les résultats de traitements statistiques ne sont pas aisément lisibles pour le non-spécialiste et découragent très certainement le néophyte, ce qui est majoritairement le cas des utilisateurs d’analyse de l’information textuelle. Il est donc difficile, sous leur forme brute, de les interpréter, et nécessaire de les présenter par l’intermédiaire d’interfaces graphiques permettant à l’utilisateur de s’approprier les résultats afin d’en fournir une interprétation utile. Deux idées viennent le plus spontanément à l’esprit :

– l’adaptation d’interfaces existantes dans les environnements statistiques et présentant des histogrammes, camemberts et graphes ;

– la génération de pages HTML permettant une navigation « hypertextuelle » d’une classe à l’autre, d’une classe à un document…

Ces deux présentations sont illustrées ici. Sans vouloir entrer dans les détails de la navigation telle qu’elle est induite dans l’un ou l’autre cas, soulignons simplement les réactions contrastées de deux types de public appelés à les utiliser :

1. les « scientifiques » (chimistes, physiciens, statisticiens, et même économistes) trouvent l’information au format HTML diffuse et peu préhensible ; ils préfèrent de loin circuler sur un graphe et consulter les distributions de variables sous forme d’histogrammes ;

2. les « littéraires » quant à eux trouvent la représentation « graphique » absolument opaque et inutilisable ; ils préfèrent de loin rebondir de mot en mot pour naviguer d’une classe à l’autre.

Curieusement, dans les deux cas, un fait n’était pas clairement perçu : les résultats présentés étaient strictement les mêmes, aussi bien quant à leur nature que quant à leur quantité.

3.2. Cartographie thématique et navigation « thèmes » / « textes » dans WordMapper  [12]

WordMapper propose d’aborder un corpus par les différentes thématiques qui le constituent, en se basant sur des séquences de mots (et donc pas par les documents, comme c’était le cas précédemment). Ce logiciel repose sur l’idée que le sens est déductible du contexte, c’est-à-dire de l’utilisation conjointe de plusieurs mots. Lorsque par exemple les mots « panne », « autoroute » et « véhicule » sont associés, on peut facilement en déduire le contexte. Souvent, dans le cadre d’un sujet défini, le contexte est très proche du contenu exprimé. La représentation et par là même la navigation dans le corpus se font donc par la lecture d’environnements de mots. Dès lors la possibilité d’exploiter ce type de classification durant lequel on perd contact avec l’ensemble des données pris comme un tout organisé (en documents), repose sur l’accès plus ou moins aisé au texte brut. De cette bonne circulation dans le corpus (des thèmes aux documents) dépend l’accès au contenu, au sens.

Pour effectuer ses calculs WordMapper repose entièrement sur la statistique ; les filtres utilisés pour nettoyer le lexique des mots jugés comme non signifiants pour l’étude sont basés sur la fréquence d’apparition de la chaîne de caractères, ou sa longueur et le seul dictionnaire utilisé est une liste de mots à supprimer (un « anti-dictionnaire » qui pourra être enrichi). Aux calculs de fréquences d’une forme graphique s’ajoutent des calculs de fréquence d’association. La fréquence d’association des termes (tel mot apparaît tant de fois à telle distance de tel autre, par exemple, ministre et culture sont souvent ensemble et séparés par deux mots) se calcule dans un contexte de 10 mots par défaut, seuil qui peut être modifié par l’utilisateur. Lorsque les calculs sont finis, il s’agit de rendre les résultats lisibles, WordMapper affiche alors un graphique représentant des groupes homogènes de mots. Ces groupes, appelés clusters sont représentés sur le graphique par le mot le plus fréquent du groupe.

Il faudra alors interpréter les résultats affichés : l’analyse statistique opère des choix, seules la compétence et l’expertise acquises sur un logiciel donné permettent de décrypter raisonnablement les résultats obtenus sans perdre de vue qu’ils sont la conséquence d’un certain nombre de paramètres modifiables.

Par exemple, il est possible d’éliminer du vocabulaire par la constitution d’un « anti-dictionnaire » ; pour faciliter cette étape, au moment du choix des termes sur lesquels vont être effectués les calculs, la visualisation par ordre alphabétique permet d’effectuer des regroupements en famille de mots (par flexion et par dérivation), palliant ainsi l’absence d’outils linguistiques pour la lemmatisation. L’élaboration de listes « consistantes » est une opération coûteuse en temps, de par l’examen des listes du vocabulaire du corpus, comme de par l’évaluation de l’impact des choix faits : il faut une bonne maîtrise de l’outil et une certaine expertise des données pour opérer des sélections sur les termes sans pour autant biaiser les résultats. Une des difficultés va être de reconstruire, par la navigation dans l’interface, les relations existant entre la « synthèse » thématique et les documents sources.

WordMapper présente deux interfaces graphiques. La première est une représentation graphique globale, une « carte  » de l’ensemble du corpus, mettant en évidence les différents thèmes. La densité est le nombre d’associations entre les mots d’une même catégorie. Une forte densité signifie que les mots contenus dans la catégorie apparaissent souvent ensemble. L’intensité de couleurs des clusters y est associée. Des liens entre les clusters figurent la relation pouvant exister entre les diverses thématiques identifiées (elles peuvent être plus ou moins proches les unes des autres).

Il s’agit dans un premier temps de permettre un accès à l’information par une vue de haut, un mapping ou repérage des sujets et thèmes traités. Cette vue d’avion, offerte par la cartographie des clusters, sert de support à la navigation dans le corpus ; on dispose pour l’exploration de différents niveaux. Une fonction « résumer » permet d’extraire pour chaque classe, un nombre choisi d’extraits dont on peut paramétrer la longueur. Il est utile de lister les phrases appartenant aux différents clusters de mots. Cette fonction va permettre de voir si une catégorie de mots identifie bien un même contexte. L’intérêt est d’observer si le contexte apparaît bien dans plusieurs pages différentes. De ces extraits on peut remonter au texte d’origine.

Une seconde carte permet de visualiser l’environnement lexical immédiat d’un mot, ce mot apparaît au centre du graphique entouré des mots qui lui sont fréquemment associés. Ce point de vue permet de désambiguïser certains termes confus, ou utilisés dans des contextes différents. Extraits, documents sources et graphique des mots offrent trois plongées possibles dans le corpus, trois zooms, absolument nécessaires à la l’appréhension de l’ensemble documentaire.

Cette visualisation de l’ensemble des documents par les thématiques qu’ils contiennent est utile pour aborder rapidement une masse importante de documents non structurés. La lecture des graphiques n’est pas immédiatement intuitive mais la pratique et la navigation lexicale concourent en peu de temps à la construction d’un point de vue illustré et appuyé par des extraits de textes choisis.

Ayant constaté la difficulté qu’ont les non-spécialistes à lire et exploiter les clusters, Grimmersoft travaille en ce moment à une nouvelle interface. Pour se rapprocher des habitudes de ceux qui traitent l’information, c’est le texte qui est privilégié, la navigation dans le corpus se rapproche de celle pratiquée sur le web : le lien hypertexte.

3.3. Analyse d’enquêtes « classiques » et analyse de questions ouvertes : LeSphinx  [13]

Le Sphinx est fondé sur l’analyse d’enquête, l’idée sous-jacente est celle de l’analyse de données structurées. Il s’agit donc au départ d’un logiciel classique d’analyse statistique de données, appliqué à des données d’enquêtes en questions fermées. Ce logiciel intègre, dans sa version la plus complète, le Sphinx Lexica, l’élaboration de questionnaires, la saisie des réponses, la définition d’échantillons, l’édition des résultats, l’analyse statistique, l’analyse des questions ouvertes, l’ouverture des bases de données externes, la gestion des données et l’analyse des textes. Le traitement de données recueillies lors d’une enquête est basé sur le croisement des différents champs renseignés, les conclusions se tirent d’après les résultats obtenus en croisant les réponses avec le profil des différents individus. Quand les réponses sont du texte, ce que l’on appelle questions ouvertes, il faut pouvoir traiter ces textes au même titre que les autres variables. C’est dans cette perspective que le logiciel a intégré un « atelier lexical » afin de répondre aux besoins de ce type de questionnaire. Il combine alors la statistique lexicale, l’analyse syntaxique et les méthodes de l’analyse de données. On peut étudier les relations des éléments lexicaux entre eux, mais aussi les croiser avec des données contextuelles externes, c’est-à-dire les autres variables qui structurent les documents. On privilégie ici le recours aux variables explicatives, en élucidant les rapprochements proposés par des éléments de contextes (individu, age, sexe…). —  l’exploitation de ce type de « variables supplémentaires » est aussi prévue dans TextNavigator. L’investigation relève d’une démarche analytique cherchant à repérer des tendances selon différents profils d’individus, différentes périodes temporelles ou autres métadonnées, éléments tous dépendants de la structuration du corpus.

L’« atelier lexical » va permettre deux types de traitement : la réduction et l’enrichissement.

Le lexique est réduit par lemmatisation, en rassemblant les termes fléchis sous un même mot. Le corpus est alors représenté comme précédemment par un graphique représentant les termes les plus fréquents, faisant apparaître les grands thèmes du corpus. Les mots sont représentés sur un graphique à deux axes ; on le lit en repérant des zones thématiques. Dès lors que la base est en partie structurée (comprend des variables explicatives), on peut projeter des métadonnées sur cette répartition du vocabulaire. Par exemple l’analyse de discours de campagne électorale est éclairée par le positionnement des candidats. On peut alors repérer les thématiques spécifiques à chacun. L’exploration du corpus est proprement analytique, il s’agit d’opérer des croisements entre les différentes variables disponibles.

Le recours à un étiquetage morpho-syntaxique est aussi utilisé pour mettre en place les bases d’une analyse énonciative en croisant les verbes ou les pronoms avec les individus, ou avec une classe d’individus pour repérer des tendances, ici de l’énonciation, ailleurs de caractérisation stylistique (choix des adjectifs, etc). On quitte dès lors la traque de « ce qui est dit » pour passser à une réflexion sur « qui dit (quoi) et comment ». Dans le cas où l’on ne traite pas un questionnaire d’enquête mais des romans ou toute autre donnée, cette démarche donne lieu à des comparaisons au sein d’une même œuvre ou entre différents romans ou auteurs.

Il s’agit véritablement d’organiser les données pour favoriser leur interprétation, la navigation lexicale est ainsi couplée à une démarche d’investigation du texte tendant à définir des discours tenus par des catégories d’individus.

Les résultats sont présentés sous forme de graphiques, mais aussi de tableaux. Comme pour les autres approches, les interprétations que ces détours suscitent doivent être contrôlées par un retour au texte. Cette étape est indispensable tant pour illustrer les interprétations que pour éviter les contresens. Les hypothèses émises sur les rapports entre un discours et différentes données contextuelles doivent être validées par un retour aux données. Chaque croisement de variables est un regard porté sur les données, c’est la combinaison de ces différents regards qui permet de bâtir une analyse.

4. Conclusion : le spécifique et la construction de connaissance

Dans la pratique, il est très délicat de mettre en avant que tel regroupement de l’information est intéressant et tel autre non [14]. Ce qui semble beaucoup plus important ici, c’est l’opportunité qu’offrent ces outils à leur utilisateur, pour peu qu’il soit prêt à investir le temps nécessaire d’une part à leur maîtrise, d’autre part au tuning destiné à prendre en compte les spécificités du corpus et de l’objectif de l’analyse.

L’assignation de catégories grammaticales peut permettre de créer des vues sur les données : selon le contexte, on peut souhaiter s’intéresser aux pronoms tels que je, tu, eux, nous, qui seront d’importance dans des analyses d’image interne de l’entreprise, en tant qu’indicateurs d’un sentiment d’appartenance à l’entité. De même, on peut souhaiter (ou ne pas souhaiter) tenir compte de la négation et des modalités verbales… Il s’agit d’un point de vue particulier ici : celui du locuteur. Dans les rapports scientifiques, par contre, on le sait, la tendance est à la disparition du locuteur, voire de l’agent en général (ce qui se traduit par une surreprésentation des formes nominales et de la passivation). Pour ce type de documents, on se centrera plus vraisemblablement sur le sens référentiel, véhiculé essentiellement par les noms (ou groupes nominaux). Dans un cas comme dans l’autre, la sélection d’un sous-ensemble des catégories linguistiques à prendre en considération va permettre un filtrage important, linguistiquement pertinent.

La densification de l’information prend aussi de tout autres formes, liées à la mise en place d’une méthodologie articulant procédés statistiques quantitatifs et qualitatifs, intégrant les relations étroites existant entre le contenu sémantique des documents, leurs caractéristiques structurelles propres (taille, provenance,…), et l’existence éventuelle de métadonnées.

Pour construire une réelle expertise en très peu de temps sur un jeu de données, comme pour construire une recherche approfondie, il est utile de pouvoir jouer avec les paramètres, les seuils de similarité, les différentes notions de pondération (par la longueur du document, arithmétique ou logarithmique pour la fréquence), la notion de seuil de purge (et tenir compte ou pas des éléments très spécifiques), de la non prise en compte du vocabulaire descriptif du corpus dans son ensemble, et donc des textes particuliers, la possibilité de faire des zooms sur des concepts, sur des sous-ensembles de classes de documents, de réajuster la définition lexicale du lemme et celle du vocabulaire non pertinent pour l’analyse, de construire divers niveaux de représentation, bref d’examiner le corpus sous différents angles : pour un compte rendu d’expérience en chimie, on peut se focaliser sur les protocoles d’expérimentation, les molécules en jeu, la durée des expériences, les partenaires impliqués, et cela sans avoir à construire des bases de données spécifiques . On peut aussi se donner les moyens d’envisager très rapidement le corpus sous un tout autre angle. Là réside la valeur ajoutée de ces techniques.

Le problème de l’évaluation de ces systèmes est précisément lié à la nécessité de maîtriser leur utilisation dans des contextes particuliers d’accès à l’information et de construction d’une capacité à « décoder », interpréter. Il est utile que des outils de fouille des données, d’extraction ou de construction de la connaissance soient autant que possible des outils d’aide à la lecture. La question réside pour beaucoup dans la capacité à présenter l’information d’une manière utile, le plus rapidement possible exploitable : étant donné le projet d’un individu à un instant donné dans un environnement donné, ce qui lui importe est d’avoir une représentation claire des outils qu’il a à sa disposition pour se construire de multiples points de vue du fonds documentaire disponible. Et la question des interfaces, dont on trouvera quelques copies d’écran en annexe, est tout à fait cruciale, manifestant ce sur quoi ouvre le recours à ces technologies : une réelle interrogation sur l’accès au sens et les modalités de sa construction.

Références bibliographiques

Achard P., « La structure énonciative du discours d’opinion », Mots, p. 39-59.

Antoni M.-H., « TAL et le projet d’évaluation Grace, couplage de règles syntaxiques sur un analyseur statistique », IBM, note interne, 1998.

—, « Homogénéïsation et traitement de données multisources, application sur des abstracts d’articles scientifiques », Actes de la 5e journée de L’Île Rousse, Revue française de Bibliométrie, 1998.

—, Une lecture de la composition nominale. Thèse de doctorat (linguistique), Paris V, 1995.

Sager N., Medical Language Processing, 1984.

Bedecarrax C., Classification automatique en analyse relationnelle : la quadri-décomposition et ses applications, 1989 (thèse de doctorat).

Biber D., Conrd S., Reppen R., Corpus Linguistics, Cambridge University Press, 1998.

Bonnafous S., « Le Vocabulaire spécifique des motions Mitterand, Rocard et CÉRÈS au congrès de Metz (1979) », Mots, p. 79-94.

El Bèze M., TAL, un parseur statistique, 1992 (thèse de doctorat).

Friedlander L., « Du savoir à l’information : concevoir en pensant à l’utilisateur », Hypertexte et hypermédia, Paris, Hermès, 1995.

Grivel L., François C., « Conception et développement d’un système d’information dédié à la veille scientifique », Hypertexte et hypermédia, Paris, Hermès, 1995.

Habert B., Nazarenko A., Salem A. -- Les linguistiques de corpus, Paris, A. Colin, 1997.

Harris Z.S, « Discourse Analysis », Language 28, n° 1 (traduction française, F. Dubois-Charlier, 1969, Langages 13, p. 8-45).

Lafon P. et Salem A., « L’Inventaire des segments répétés d’un texte », Mots, 1983, n° 6, p. 161-177.

Lebart L., Salem A., Statistique textuelle, Paris, Dunod, 1994.

Lebart L., « Les questions ouvertes, outils de contrôle, d’évaluation, de valorisation », Mots, p. 76-91.

Lecomte Alain, Léon Jacqueline, Marandin Jean-Marie, « Analyse du discours : stratégie de description textuelle », Mots, 1984, n° 9, p. 143-165.

—, « La Répartition des mots dans le vocabulaire présidentiel (1981-1988) », Mots, p. 80-88.

Marcotorchino J.-F., Agrégation de similarités, Paris-VI, 1981 (thèse d’état).

Oakes M., Statistics for corpus linguistics, Edinburgh Textbooks in Empirical Statistics, 1994.


Annexes : quelques exemples de visualisation

Annexe 1. Forme cartographique de représentation d’ensembles de documents

L’information synthétique sur les classes est disponible par ailleurs sous forme d’histogrammes et de camemberts, on peut accéder aux documents en passant par les classes, avoir des informations sur les mots caractéristiques des liens, etc.
>> visualiser la copie d'écran

Annexe 2. Forme «  dossiers HTML  » du même ensemble documentaire

Présentation des résultats sous format HTML : ici la circulation est strictement celle à laquelle on est habitué dans un environnement Internet. Les mêmes informations que précédemment sont disponibles, sous forme de couleurs associées aux mots, et de liens entre les différents objets.
>> visualiser la copie d'écran

Annexe 3. Représentation cartographique d’associations de mots

>> visualiser la copie d'écran



[1]. Des réductions reposant sur des paramètres linguistiques et statistiques sont présentées plus loin.

[2]. Divers types assez différents de browser seront évoqués plus loin : ils répondent à des profils d’utilisateurs spécifiques.

[3]. Même si la représentation synthétique porte déjà en soi un point de vue sur les données.

[4]. Il s’agit là des problématiques de la « veille ».

[5]. Des outils d’investigation du document en soi, qui cherchent par exemple à faire émerger des univers lexicaux (concordanciers, analyse de contenus) pourront être ultérieurement mis en œuvre, afin d’aider à l’interprétation des résultats.

[6]. Qu’on pense aux descriptions qu’en donne Austin dans «  le langage silencieux  ».

[7]. On peut trouver une description des différents analyseurs disponibles sur le site de l’opération Grace, opération d’évaluation conjointe CNRS-InaLF. On trouvera par ailleurs une description de leur mode de fonctionnement dans notre article sur Humanistica, consacré à l’analyse du français pré-classique (Le Médiéviste et l’Ordinateur,  n° 38).

[8]. Ce qui peut parfois constituer l’embryon d’un dictionnaire terminologique dédié et appliqué au corpus.

[9]. Sous des contraintes garantissant une classification globale des documents, c’est-à-dire une partition.

[10]. Il peut y avoir de très grandes distances entre les deux indicateurs : le vocabulaire fréquent permet de se resituer dans un cadre interprétatif général.

[11]. Seuil en dessous duquel le regroupement de documents n’a mathématiquement pas de sens ; ce seuil est la moitié de la moyenne sur tous les documents de leur similarité par paires, il est calculable en ordre N.

[12]. En collaboration avec Amandine Six.

[13]. En collaboration avec Amandine Six

[14]. Et même sur des mesures d’évaluation statistiques de « détection » satisfaisantes en termes de précision et de rappel ; sauf à vouloir tester un catégoriseur en un instant donné, pour un corpus dont les caractéristiques sont connues et stables, et pour un  jeu de classes-cibles précis, ce qui peut être un moyen d’apprendre à connaître un corpus, et voir son intérêt pour faire du routage, mais n’est qu’une sous-partie du problème.


© CNRS - IRHT 2004 - Contacts - Infos légales - Rédaction