Le Médiéviste et l’ordinateur

Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies

n° 41 (Hiver 2002) : L’apport cognitif

L’ordinateur et le chercheur
Réflexions sur les enjeux et perspectives des recherches lexicales et sémantiques assistées
ou
Perspectives sur les recherches lexicales et sémantiques assistées

Bassir Amiri
Université de Nancy 2

Bassir AMIRI enseigne à l’université de Nancy 2. Il vient de soutenir une thèse de doctorat consacrée à l’étude sémantique et littéraire du chaos dans la littérature latine de Lucrèce à l’époque augustinienne. L’étendue du corpus auquel cette étude l’a confronté l’a conduit à s’intéresser aux outils électroniques sous l’impulsion de François Rastier et grâce aux diverses équipes de recherches du CNRS, qui lui ont permis de s’initier aux logiciels et CD-Roms tels que CLCLT, Hyperbase, Estella… L’utilisation des ressources électroniques a constitué dans ses recherches un auxiliaire et l’enjeu d’une réflexion méthodologique sur leur application à un corpus latin étendu sur le plan générique et temporel. Il a ainsi pu mesurer les virtualités et les pièges que ces outils recèlent pour le chercheur.

Prétendre évoquer l’entrée de l’ordinateur et des outils informatiques dans le monde de la recherche en sciences humaines revient d’abord à énoncer un lieu commun : de plus en plus présent dans les études et les travaux menés et publiés au sein de la communauté scientifique, l’ordinateur connaît sans conteste un succès croissant ; il n’en reste pas moins un objet de méfiance pour un grand nombre de chercheurs. Comment ne pas être en effet à la fois subjugué et effrayé, à tout le moins réticent, par les moyens mis à la disposition des scientifiques grâce à l’ordinateur ? Banques de données lexicales, textes électroniques, index et concordances sont disponibles et accessibles sur CD-Roms aussi bien que sur Internet et permettent de mener à bien des études multiples et variées : de l’établissement d’une bibliographie à des travaux philologiques, lexicographiques ou sémantiques. Les nouvelles technologies constituent un champ d’investigation infini pour les chercheurs, qu’ils interviennent en tant que concepteurs des bases de données ou « simplement » en tant qu’utilisateurs. Pour offrir des possibilités nouvelles, l’ordinateur n’en pose cependant pas moins un certain nombre de questions à ces deux branches de chercheurs.

Comme le perçoivent clairement les adeptes aussi bien que les réfractaires, le caractère problématique de l’ordinateur repose à la fois sur un aspect théorique, qui concerne la méthodologie et la démarche de recherche imposées par cette technologie, et sur l’aspect pratique d’application aux textes et à la recherche de ces nouveaux outils de travail. Le rapport qui s’établit entre l’ordinateur et le chercheur apparaît ainsi particulièrement délicat et pour le moins instable, problématique voire conflictuel. Il semble pourtant qu’il faille plutôt parler d’un rapport dialectique dont la clé de voûte repose sur la notion de limites, reconnues pour être dépassées sinon transformées en atout majeur non pas tant pour l’ordinateur et le chercheur, mais pour le seul pôle qui importe vraiment : celui de la recherche. En posant les limites de l’ordinateur face aux limites humaines et en se renvoyant indéfiniment la responsabilité d’éventuelles difficultés, on risque fort d’aboutir à une impasse. Au contraire, reconnaître une complémentarité entre le chercheur et l’ordinateur, et pourquoi pas une forme d’émulation entre ces deux pôles, sans s’aveugler sur leurs capacités respectives, c’est se donner les moyens de mener un travail fructueux et une recherche dynamique.

Cette dialectique, qui repose sur la limite, est perceptible à différents niveaux : elle apparaît dans la distinction qu’il faut établir entre un outil et un interprète ; elle se révèle dans la prétention à l’exhaustivité promise par les nouvelles technologies et espérée par l’homme ; elle est enfin perceptible dans l’idée que la recherche, a fortiori celle qui est liée à l’outil informatique, ne prend sens que si elle est orientée vers des objectifs précis et clairement définis, comme en témoigne le cas particulier de la recherche sémantique. A travers ces trois points, il semble possible d’apporter quelques réflexions sur le rapport ambigu du chercheur à l’ordinateur.

Si l’on se place dans la perspective des limites respectives de l’individu et de l’ordinateur, il paraît concevable d’imaginer la possibilité d’un équilibre dynamique entre ces deux instances, « rivales » aux yeux de certains. Indéniablement, l’homme est démuni sur le plan « cognitif » face aux données infinies fournies par l’ordinateur. Point n’est besoin de rappeler les données et par suite la masse de résultats à laquelle le chercheur est confronté lors de l’interrogation de ces corpus électroniques ; point n’est besoin non plus de se référer à l’image de labyrinthe couramment utilisée pour désigner Internet, sa multitude de sites et de liens. La gestion des informations en provenance de telles sources, la distinction du bon grain de l’ivraie, autant d’opérations que l’homme n’a pas les moyens de mener à large échelle. L’ordinateur révèle ainsi de manière éclatante la faiblesse humaine. Par la même occasion, pourtant, il lui offre la possibilité de se dépasser, de se transcender : le chercheur est par essence celui qui possède capacité d’analyse et de sélection, esprit de curiosité ; les nouvelles technologies l’obligent à se tenir en éveil : par-là, elles sont à même de stimuler et de démultiplier les potentialités du chercheur.

D’autant que l’ordinateur ne peut rien fournir sans l’homme ; ou si peu, au regard des applications qu’on lui demande ensuite. Les phénomènes d’ambiguïtés, de « bruit », caractéristiques des banques de données, sont là pour en attester, aussi bien dans la phase de conception des bases de données, au cours du processus de lemmatisation, que dans leur phase d’exploitation. La langue latine, sur laquelle travaillent les chercheurs de l’Antiquité et du Moyen Âge, représente un terrain particulièrement favorable à l’ambiguïté dans sa relation avec l’informatique. Les problèmes liés à l’enregistrement des textes sur support informatique sont légion. À la réflexion propre à l’édition critique d’un texte doit en effet s’ajouter l’identification philologique et morpho-syntaxique de chaque terme du texte en vue de la lemmatisation. Comment traiter le cas des enclitiques comme –que, des formes contractées, des tmèses telles que priusquam, prius… quam, des numéraux ? La résolution des problèmes de ce type ne peut se faire de manière automatique. Au chercheur d’intervenir et de choisir en toute lucidité, de prendre parti. Il en va de même pour les formes homographes dont l’identification suppose parfois un travail minutieux d’interprétation différentielle. Ainsi, « la forme hostium relève soit du lemme hostis, soit du lemme ostium, soit encore du substantif hostium selon le Lexicon Latinitatis Medii Aeui de Blaise sans oublier qu’il pourrait aussi s’agir d’une forme relevant de Ostia ; hostis peut aussi être un verbe en –ire ou le substantif hostus,i ^[1] ».

En ce sens, la lemmatisation des textes constitue à elle seule une première interprétation du mot, de sa forme et de son sens au sein d’un contexte ou d’un texte. Elle relève d’une entreprise d’interprétation micro-sémantique qui est au cœur de toute recherche lexicographique. Les processus de lemmatisation comme le recours aux calculs statistiques linguistiques obligent ainsi le chercheur à une réflexion méthodologique explicite et consciente suivie de choix drastiques qui offrent prise à une discussion apte à faire avancer la recherche. Si l’ordinateur occupe alors bien une place centrale dans la recherche, c’est aussi parce qu’il est encadré par le travail d’interprétation du chercheur : en amont grâce à une réflexion théorique et conceptuelle et à des analyses préalables, en aval par un travail d’interprétation des résultats.

Une fois les limites de l’homme et de l’ordinateur établies et la part de chacun reconnue, l’outil informatique peut apparaître comme un catalyseur de la recherche. L’avènement de l’ordinateur suppose en effet un renouvellement des études selon une perspective historique et contextuelle. Avec les nouvelles technologies s’ouvre la possibilité de mesurer la contribution d’auteurs jusqu’alors étudiés individuellement, faute de moyens. L’ordinateur offre alors à qui veut et sait voir la possibilité de relativiser les données précédemment obtenues et considérées comme acquises et d’opérer ainsi des synthèses — au sens noble du terme — sur de vastes périodes ou sur des courants historiques, philosophiques ou littéraires précis. L’outil informatique permet en effet d’accéder à des corpus plus étendus en vue de travaux interprétatifs aptes à bannir les erreurs de l’illusion référentielle ^[2] ou de l’illusion du particulier, du ponctuel. Nous assistons alors à une ébauche de réorientation de la recherche au point de vue de ses méthodes : L’ordinateur rend virtuellement possible des travaux de comparaison et impose l’idée que tout texte prend son sens par rapprochement avec d’autres textes.

À l’heure actuelle cependant, force est de connaître que l’outil informatique promet parfois plus qu’il ne peut tenir et que les espérances du chercheur en ce domaine s’apparentent à la tentation de l’exhaustivité, aspiration nécessaire qui ne participe pourtant peut-être pas de l’essence humaine. Confronté à un travail de recherche visant à établir l’histoire d’un terme et de la notion correspondante sur plusieurs siècles, le chercheur s’appuie avec nécessité et raison sur l’ordinateur pour rassembler la masse de textes dont il a besoin. À ce stade préalable de la recherche, il faut bien constater les limites matérielles des bases de données dont nous disposons. Ainsi pour la période latine, et ce malgré les nombreuses versions revues et étendues des bases de données, les logiciels ne permettent pas de couvrir l’ensemble des auteurs et des œuvres appartenant au corpus du chercheur. Sachant que la lemmatisation des textes est extrêmement longue, reste à tenter de collecter les textes sur Internet. Dès lors se pose un problème capital : celui de l’harmonisation des textes collectés. Il faut tout d’abord évoquer la question de la ponctuation des éditions choisies. Les règles suivies dans les anciennes éditions, de la Patrologie par exemple, diffèrent des règles actuelles. En outre, de même que la lemmatisation, la ponctuation représente déjà une manière de comprendre le texte. D’une édition à l’autre, on observe également des variations orthographiques qui peuvent se révéler capitales lors des interrogations des bases de données. Enfin, les principes de lemmatisation ne sont pas universels. Comment dès lors concilier les nouvelles perspectives de la recherche, qui sur des corpus choisis, ont démontré leur efficacité et leur valeur avec les obstacles matériels propres à toute application ?

En ce sens, si accepter de travailler avec l’outil informatique, c’est prendre le parti d’une recherche renouvelée, c’est aussi pour le chercheur faire le choix d’occulter certains aspects de son interrogation, et d’accepter ces limites en fonction d’un projet de recherche défini et précis. Le cas de l’exploitation statistique des données constitue un exemple représentatif de ce parti pris ^[3], comme l’illustre l’application des théories sémantiques de F. Rastier^[4]. Ce type de travail repose sur des dénombrements. À première vue, et pour un certain nombre d’observateurs, ces études se résument à considérer le texte comme un ensemble de mots dont on repère le nombre d’occurrences et la position dans la phrase ou le texte. Cette vision ne permet cependant pas de rendre justice à l’entreprise qui est menée. Indéniablement, le travail de recherche en statistique linguistique passe par l’établissement d’une liste de mots. Si l’on conçoit en effet que cette pratique pose question sur le plan théorique, dans la mesure où cette méthode isole un objet de son contexte, reste à observer que la finalité de l’étude ne tient pas dans la constitution de cette liste. L’extraction d’un mot ou d’un terme ne peut être menée que par rapport à un contexte et aux différents niveaux qui l’encadrent. Une fois reconnu le caractère significatif des mots ainsi prélevés, il convient de les interroger en relation avec leur entourage afin de déterminer leurs traits et leurs caractéristiques sémantiques. À l’issue de cette étape qui n’a de sens que parce qu’elle prend en compte les notions de contextes, de genres textuels et d’époques historiques, le principe de la statistique linguistique et sémantique offre la possibilité de mettre en évidence, malgré l’infinie variété des formes d’expression, les systèmes de représentation d’une époque ou d’un courant de pensée. Dans ces conditions, le travail sur le texte en relation avec l’outil informatique constitue le moyen privilégié d’accéder à une perspective clairement définie : la connaissance des systèmes de valeurs ou de représentation d’un groupe ou d’une société ^[5]. Pour atteindre ce but, il aura fallu passer par les pièges et les travers de l’ordinateur, certes, mais en toute conscience, le chercheur aura su choisir le seul biais susceptible de le conduire au terme de son travail. Le problème théorique de l’extraction préalable d’un mot hors de son contexte constitue l’un des points d’achoppement de la réflexion théorique sur la statistique linguistique et sémantique. Il en est d’autres ; au chercheur de les évaluer à l’aune de son projet et de ses objectifs. Ce n’est qu’en se plaçant de ce point de vue que l’on pourra juger de la pertinence du recours à l’outil informatique. S’il existe une limite irrévocable qui renvoie face à face ordinateur et chercheur, ce ne peut être que la contribution de la recherche à la science de l’homme.

L’avènement de l’outil informatique dans le domaine des sciences humaines suscite, de manière légitime, réserves et interrogations. Penser le rapport du chercheur et de l’ordinateur n’est envisageable qu’en termes de dialectique sous peine d’aboutir à une impasse. Cette conception permet ainsi de dégager trois pôles essentiels en jeu : outre l’outil informatique et le scientifique lui-même, la recherche apparaît comme le troisième terme indispensable à la réflexion. Quelle recherche souhaitons-nous mener et développer ? Quels présupposés théoriques souhaitons-nous mettre en place et avec quelles intentions ? À celui qui met en avant la constitution d’un projet, l’outil informatique ne peut qu’apparaître bénéfique. Bien sûr, il reste des failles dans la construction de ces outils et dans l’utilisation que le chercheur en fait. Néanmoins, la véritable limite de l’ordinateur — et de l’homme — réside dans l’absence de recul par rapport aux possibilités et aux virtualités de l’outil lui-même.

L’apparition des nouvelles technologies dans la recherche nous rappelle en outre les fondements de toute démarche scientifique : à la réflexion théorique et à l’application concrète doivent être associées une démarche et une méthode concertées en vue d’un projet et d’un objectif. En ce sens, le plus grand mérite du rapport entre ordinateur et chercheur réside sans conteste dans le dynamisme qu’il suppose de la part du chercheur. Sans l’interprétation et sans le projet du scientifique, les données fournies par les nouvelles technologies ne sont que lettres mortes. Au chercheur de mettre en évidence les enjeux des recherches automatiques, à lui encore d’établir un lien entre les différents domaines : si l’ordinateur livre des informations précieuses aux philologues et aux linguistes, l’intérêt essentiel de l’entrée de l’informatique dans le monde de la recherche est que le chercheur est à même de rejoindre, par le biais d’études linguistiques, l’histoire de la pensée et de la civilisation en général. Les travaux assistés par ordinateur seraient vains sans l’idée des ensembles humains. Or, sur ce point les ressources du chercheur sont inépuisables.

[1]. Exemple tiré de l’introduction au Thesaurus Linguae Scriptorum Operumque Latino-belgicorum Medii Aevi, première partie, publié sous la direction de P. Tombeur, Bruxelles, Académie Royale de Belgique, 1986, p. 39.

[2]. Terme emprunté à Michaël Riffaterre.

[3]. Cf. par exemple les travaux d’Évelyne Bourion, « Corpus électroniques et lecture non-linéaire : vers une assistance à la recherche thématique », dans L’Imparfait. Philologie électronique et assistance à l’interprétation des textes. Actes des Journées Scientifique 1999, J. E. Tyvaert (éd.), n° 15, Presses Universitaires de Reims, 2000, p. 189-223.

[4]. F. Rastier, Sémantique interprétative, Paris, PUF, 1987.

[5]. Cette étape, la plus importante, relève en dernière analyse, de l’interprétation du chercheur et peut permettre de souligner le « génie » d’un auteur, comme le rappelle Pierre Salat dans Verborum ratio,

L’ordinateur et le chercheur Réflexions sur les enjeux et perspectives des recherches lexicales et sémantiques assistées ou Perspectives sur les recherches lexicales et sémantiques assistées

L’ordinateur et le chercheur
Réflexions sur les enjeux et perspectives des recherches lexicales et sémantiques assistées
ou
Perspectives sur les recherches lexicales et sémantiques assistées