Le Médiéviste et l’ordinateur
Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies
Varia : articles hors-série

Concordance de l’occitan médiéval (COM1) : compte rendu

Auteurs

René Pellen,
Rene.Pellen@mshs.univ-poitiers.fr
Université de Poitiers

Citer l’article

René Pellen, « Concordance de l’occitan médiéval (COM1) », Le Médiéviste et l’ordinateur, 2006 (Varia) [En ligne] http://lemo.irht.cnrs.fr/varia/com.htm

Mots clés

Occitan médiéval ; COM 1; CD-Rom ; Base de données lexicale ; Concordance ; Système d’exploration ; Analyse critique

Keywords

Medieval occitan ; COM ; CD-Rom ; Lexical database ; Concordance ; Retrieval system. ; Critical analysis

Résumé

Étude des divers aspects de la base lexicale COM et de son logiciel d’interrogation. COM1 est consacré à la poésie lyrique des troubadours et donne accès à la totalité des textes connus. En examinant ses ressources une à une, on montre à la fois ses remarquables possibilités et ses limites. Présenté comme une vérification systématique de son Guide d’utilisation, ce banc d’essai devrait aider l’utilisateur à mieux exploiter la base et suggère quelques améliorations dont pourraient bénéficier les autres CD de COM.

Abstract

“The Concordance of Medieval Occitan (COM) brings together the corpus of texts extant in the language from the first attestation to those belonging to the end of the fifteenth century” (Preface, p. 4). In fact, this is the first part of the database, which makes available the lyrical texts of the Occitan corpus (some 2,500 poems of the troubadours). The article examines the principal functions of the system, its rich possibilities and limits. Checking the various procedures introduces to a critical User’s Guide that completes the authors’ one and can protect from unforeseen or chancy circumstances.

Sommaire

1. Un événement considérable

Ce CD-ROM correspond, en fait, à la première tranche du projet COM (COM1), qui en comporte quatre et dont l’achèvement est prévu vers 2010. Cette tranche 1 se limite à la poésie des troubadours ; les suivantes concerneront les textes poétiques non-lyriques (tranche 2), les textes en prose (tranche 3) et l’ensemble des apparats critiques (tranche 4). Le disque est accompagné d’un manuel d’utilisation très clair (à double entrée : texte français et texte anglais) décrivant pas à pas l’installation et les procédures de recherche, après un bref historique sur le projet COM, et d’une bibliographie détaillée : les textes du disque y sont référencés d’après le Répertoire métrique de la poésie des troubadours d’I. Frank (Paris, Champion, 1966), à défaut selon la Bibliographie der Troubadours d’A. Pillet et H. Carstens (Halle, 1933) ; à noter qu’une version électronique de la bibliographie figure sur le disque. Bien qu’il s’agisse d’une publication partielle, la parution de ce CD est à bien des égards un événement considérable par la quantité d’informations qu’il met désormais à la disposition de tous les romanistes ; il clôt avec bonheur une longue période d’épreuves et ouvre aux études occitanes des perspectives insoupçonnées. Aux dernières nouvelles, COM1 serait bientôt suivi d’un nouveau CD, COM2, qui contiendrait, outre les textes lyriques (mis à jour), les textes narratifs en vers ; plus tard, COM3 ajouterait les textes en prose. Précisons qu’une seconde version, qui regroupe COM1 et COM21, est prévue pour l’année 2005.

Le disque vise à l’exhaustivité au niveau des textes recueillis (en fonction des textes connus actuellement). Il propose plusieurs types d’objet : les textes, le vocabulaire complet, le vocabulaire des rimes, une concordance pré-élaborée et un logiciel d’exploitation. Les textes, c’est près de 2 500 poèmes des troubadours — soit plus de 100 000 vers —, dont on peut interroger l’intégralité du vocabulaire, en introduisant soit un mot, soit un préfixe, soit un suffixe ; il est possible également de faire des recherches sur les rimes. L’utilisation d’opérateurs booléens devrait à la fois élargir et affiner les possibilités de recherche, de même que l’accès à l’index complet des formes graphiques.

Afin que ce compte rendu - banc d’essai puisse servir aussi bien aux utilisateurs qu’aux auteurs (s’ils souhaitent compléter le logiciel d’exploitation et le Guide), il suivra le plus possible l’ordre adopté par ces derniers dans le manuel qui accompagne le CD.

2. Installation et ouverture

Tous les essais qui vont être commentés ont été réalisés sur MacIntosh. Or le CD a été conçu pour tourner sur PC (avec Windows 95/98/NT). Sur Mac il est parfaitement utilisable, à condition d’installer un logiciel de simulation comme VirtualPC. On notera toutefois que VirtualPC-6 exige la version 9.2.2 de Mac O.S., ce qui impose, le cas échéant, de mettre à jour son système d’exploitation.

Cela dit, l’installation elle-même ne présente aucune difficulté particulière et dès l’ouverture (longue malgré la mémoire disponible) COM affiche un écran de travail sobre et clair, très bien conçu (par rapport à la nature et aux finalités de la base de données) : la plus grande partie de la moitié gauche est occupée par une fenêtre dans laquelle apparaît la liste des mots du Vocabulaire complet (pour chacun est indiqué le nombre d’occurrences dans le corpus) ; la plus grande partie de la moitié droite par une fenêtre symétrique, vide, où s’inscriront, soit les mots sélectionnés pour certaines recherches, soit les mots extraits du vocabulaire général selon des modalités qui seront décrites plus loin. Au-dessus de ces fenêtres, deux bandeaux de trois onglets chacun. Le premier permet d’accéder :

Le second, si l’option Recherche du premier est sélectionnée, permet d’afficher :

Au-dessous des fenêtres figure un ensemble de cadres et de boutons aidant à préciser le type de séquence sur laquelle on veut interroger la base et l’étendue de la concordance (qui peut aller de 1 à 7 vers). La recherche peut porter sur un Mot, un Préfixe ou un Suffixe (les initiales désignent les boutons sur lesquels il convient de cliquer pour lancer la recherche sur la séquence tapée dans l’un des rectangles correspondants). Il est possible d’utiliser dans les séquences d’interrogation 3 caractères spéciaux, dits — un peu rapidement — « opérateurs booléens », qui sont des caractères virtuels ou jokers (voir ci-après). On peut d’autre part consulter les Premiers Vers (classés par ordre de référence Pillet-Carstens).

Les boutons « Sortir » et « Suite », ambigus, gagneraient sans doute à être rebaptisés « Effacer » et « Résultats », qui correspondraient mieux à leur fonction : le premier efface la question précédente (il ne provoque pas la sortie de COM ; il n’efface pas non plus les résultats antérieurs !), le second affiche les résultats quand une recherche est terminée (il n’implique pas l’ajout d’un complément d’information). L’onglet Résultats du bandeau supérieur pourrait s’appeler Concordance.

Tel est le cadre de travail. Chacune de ses structures fera l’objet d’un bref commentaire.

3. Le Vocabulaire complet

Comme son nom l’indique, la COM est une concordance, non une base textuelle. Les textes en tant que tels ne seront donc accessibles qu’à travers le vocabulaire (ou par le biais des premiers vers).

La fenêtre de gauche fournit l’index complet de ce vocabulaire, classé par ordre alphabétique. Les noms propres, codés à la saisie avec <@> préfixé, sont cités dans une deuxième liste alphabétique qui prolonge la liste générale.

Quelle est la forme de ces mots par rapport aux sources manuscrites ? COM a été élaborée à partir d’éditions critiques. En fonction de ce choix méthodologique, les formes sont donc les formes adoptées par les éditeurs, en partie normalisées, en partie retouchées — sans que la nature de l’intervention critique apparaisse dans les données. Le résultat est un ensemble lexical peut-être plus intéressant pour certaines recherches littéraires, mais qui interdit, entre autres, une étude linguistique précise de la langue poétique occitane : les éditeurs n’ont pas tous retenu les mêmes critères de transcription, de restitution des abréviations ou de retouche formelle ; ils ont superposé aux textes la ponctuation de leur interprétation personnelle, modifié la graphie. Malgré les garanties qu’elle présente sur un certain nombre de plans (fruit d’un long et minutieux travail philologique), cette version électronique sur laquelle repose la base lexicale est donc en partie artificielle ; les auteurs eux-mêmes la considèrent comme « interprétative » (Guide, p. 5). L’équipe de la COM prévoit, heureusement, à une étape ultérieure (COM4), de proposer

une version semi-diplomatique respectant la coupure des mots tels qu’ils existent dans les manuscrits et indiquant les fins de lignes dans les colonnes, tout en marquant, par exemple, les ratures et les formes lexicales superscrites (ibid.).

Dans la version actuelle on apprécie cependant certains choix comme l’utilisation de l’apostrophe et du point haut : dans la séquence « d’ome », « d’ » constitue un premier mot, distinct de « ome » (<‘> présenté comme caractère dans l’alphabet de COM a donc aussi une valeur de séparateur) ; dans la séquence « que·l », le point haut appartient au mot « ·l », distinct de « que » (on regrettera que cette indication doive être recherchée dans le dernier chapitre de l’Aide, baptisé de surcroît Appendice). On trouvera ainsi dans le Vocabulaire les formes « abaiss’ », « abras’ », « abriv’ », etc. ; il y en a 1717 de ce type, qui représentent 55 011 occurrences. On trouvera par ailleurs les formes commençant par un point haut : « ·bs », « ·es », « ·i », etc. ; il y en a 40, qui correspondent à 27 660 occurrences. Ces dernières sont classées à leur place normale dans l’alphabet (compte non tenu de leur point préfixe), ex. « ·bs » entre « bruzir » et « bubanz ».

Signalons quelques coquilles, dues au fait que certains signes sont traités comme des caractères, non comme des séparateurs, ex. « -a », « a%- », « a/- » : les marques de rime <%> et </> sont normalement effacées dans le Vocabulaire complet. L’adjonction du trait d’union provoque des éclatements de forme ou l’apparition de formes parasites du fait qu’on a voulu garder le moyen d’isoler les rimes internes. On relève 17 séquences préfixées par <-> qui ne sont pas des mots (19 occ., ex. « -gues », fragment de « volgues », mais la première syllabe, rime interne, a été codée « vol% » avec espace final ; id. « -men » de « Sotil% -men », etc.), 5 séquences suffixées par <%-> (6 occ.), 12 suffixées par </-> (19 occ., ex. « a/-mor » où « a/- » et « mor » appartiennent à des vers différents, « a/-xi% », id., « ja/-mais », id.). L’ennui c’est que le deuxième fragment de ces formes écartelées est traité comme un autre mot du vocabulaire ou confondu avec un homographe : « men » (PC 133, 1:15), « mor » (PC 154, 7:42-43). Rien que pour les trois phénomènes cités ce sont donc 34 formes postiches qui vont encombrer le Vocabulaire complet. On remarque, en outre, par-ci par-là, des résultats de découpages malheureux, ex. « ·l-@trai/ » (de « @Vida·l-@Trai/ », PC 363, 38:72 ; comp. « @Cordolors », « @Fastic-@Fai/ », « @Malamortz » ibid.).

Un autre ensemble de débris inclassables dans un lexique vient s’ajouter au premier : celui des mots partiellement lacunaires, dont les éléments identifiés sont traités comme des mots : « [ ]z » (PC 392, 26a:5), « [ ]z/ » (PC 17, 1:4), ou sont confondus ici encore avec des homographes bien réels : « [ ]m[ ] » (PC 5, 2:1) ou « m[ ] » (PC 204, 3:31) figurant parmi les occurrences du pronom personnel ; cf. par ailleurs « t » (PC 392, 26a:4), « z » (PC 17, 1:4 et PC 392, 26a:5)…

Bien qu’on ne puisse a priori savoir quelle part revient aux éditeurs dans l’utilisation des majuscules, étant donné que la concordance veut introduire à la connaissance interprétative (critique) des textes, il eût été utile de distinguer dans le lexique les formes commençant par minuscules et les formes commençant par majuscules. Mais le lexique n’utilise que les minuscules, si bien que la concordance ne correspond pas toujours à la forme sélectionnée : on trouve ainsi sous « senhor » « Nostre Senhor » (PC 57, 1:20), « son Senhor » (PC 63, 2:56), sous « amors » « Amors » à l’intérieur du vers (PC 3, 2:3 ; PC 9, 7:1). La régularisation est souvent sensible, notamment dans le traitement des proclitiques : « @Don @Rainier » (PE 231, 1:6), « @N’@Aymeric » (PC 8, 1:41), « @Na @Biatriz » (PC 10, 2:41). Il va sans dire que cette régularisation occulte complètement la graphie des manuscrits.

Ces inconvénients, qui découlent en partie des textes mémorisés, seraient moins gênants si le vocabulaire était lemmatisé. Certains même auraient été éliminés par l’impossibilité de rattacher telle séquence à un lemme. On ne peut que souhaiter, malgré l’ampleur du travail d’analyse à accomplir, que la COM soit réélaborée un jour à partir d’un vocabulaire lemmatisé. Car si une bonne connaissance de la langue permet, comme le suggère le Guide, de rapprocher « ulh » de « (h)ueilh(s) » ou de « olh », elle n’aide en rien lorsque tous les « a » (verbe, préposition, exclamation…) ont été réunis sous une forme unique (9 950 occurrences) et dans une seule concordance, même ceux qui n’en relèvent pas, comme « [ ]a » de PC 5, 2:3 !

Dans l’utilisation de la base il conviendra, par conséquent, de tenir compte de ces caractéristiques du Vocabulaire complet, soit pour préparer, soit pour interpréter ses résultats.

4. Le Vocabulaire de la Rime

Bien qu’il ne constitue qu’un extrait du Vocabulaire général, ce vocabulaire est à considérer comme un outil original qui accroît les possibilités d’exploration du lexique et rendra les plus grands services, non seulement aux utilisateurs qui s’intéressent à la prosodie, mais à ceux qui sont curieux de phonétique, de morphologie, voire d’associations sémiologiques ou sémantiques. En fait, ce vocabulaire est double et offre, en plus de l’inventaire alphabétique de toutes les rimes finales, un relevé des rimes internes. Les premières conservent ici le codage qu’elles reçoivent dans le texte et qui s’efface dans la fenêtre du Vocabulaire complet : </> ; la base en comporte 23 326, dont le nombre d’occurrences correspond, évidemment, au nombre de vers (115 620). Les secondes, beaucoup moins nombreuses (1 304 formes pour 2 064 occurrences), dépendent directement de l’analyse effectuée lors de la saisie. Si une rime interne n’a pas été codée <%> dans le texte, elle sera naturellement occultée dans le Vocabulaire et dans les concordances qui en dérivent, comme le fait remarquer D. Billy dans son compte rendu de la RLiR (65, 2001 : 588 ; il cite en exemple le « trachoretz » de Bertran Carbonel, PC 82, 36:1).

Mais en dépit d’oublis éventuels dans ce deuxième sous-index, l’ensemble du Vocabulaire des Rimes présente un indéniable avantage sur le Vocabulaire complet — selon les recherches qu’on veut effectuer — : il délimite mieux la question et surtout le champ des résultats. Il sera exploité, en particulier, dans le cadre des interrogations à l’aide de Suffixe (voir ci-dessous), mais pourra être mis à profit également au moyen de Préfixe.

Comme dans le Vocabulaire complet, on relève toutefois quelques formes postiches, ex. « % » (2 occ.) et « / » (575). Dans le premier cas tout se passe comme si la fonction de séparateur de <‘> dans « ades’% » (PC 173, 1a:52) et « esper’% » (PC 173, 1a:64) l’emportait sur sa fonction de caractère : à ce moment-là il devrait suivre, non précéder <%>. Dans le second, </> isolé signale une lacune en fin de vers. Comme indiqué précédemment, il serait préférable de représenter par une marque quelconque l’existence d’une lacune, par ex. « [ ]/ », ce qui séparerait les vraies lacunes des erreurs de saisie, comme celles qui apparaissent en PC 455, 1:21, « gavahn’/ » ou en PC 461, 67a:34, « rir’/ » —pour la raison déjà évoquée. D’autres rencontres provoquent l’isolement de </> ; cf., à la fin de vers sans lacune, <—,/> (PC 210, 20:20, « sefraigna—,/ »), <—;/> (PC 202, 9:22, « be—;/ »). Ces erreurs de découpage au niveau du codage ont pour conséquence de supprimer du Vocabulaire des Rimes, des formes ou des occurrences bien existantes : « gavanh’/ », « be’/ », etc.

Parfois encore, le codage de la rime entre en conflit avec la structure syntaxique : « q’eu non laisse% que no·m baiss’ e% qe son prez manteigna/ » (PC 88, 1:63) ; « e% » est traité comme une forme de rime interne parce que deux éléments le séparent de « baiss’ » : un blanc inutile et l’apostrophe qui note l’élision. Le résultat est que « baiss’ » ne figure pas dans le Vocabulaire des Rimes (l’occurrence est à chercher dans le Vocabulaire complet). D’autre part, il semble qu’une rime entre un mot du vers et la rime finale ne soit pas considérée comme rime interne (comp. PC 96, 7a:31 « qar sai% no·m vai% l’afanz qe·m fai sentir/ » et PC 63, 4:36 « Be·m vai si a ma dona plai/ », non « vai% » —mais pourquoi dans le vers précédent « fai », non « fai% » ?—) ; en revanche deux mots se trouvant à l’intérieur de deux vers différents peuvent rimer ensemble (« plai% » et « sai% » en PC 244, 4:13-14).

5. Recherche d’un mot ou d’une séquence

Plusieurs démarches sont possibles pour interroger les vocabulaires. La plus simple consiste à sélectionner un mot en le tapant dans la case prévue entre Chercher et Mot. Soit « traidor » : en cliquant sur Mot la recherche est lancée ; une première information s’affiche dans deux cases de droite : le nombre d’occurrences et le nombre de vers entre lesquels se répartissent les occurrences. La plupart du temps ces deux valeurs sont redondantes, la même forme se répétant peu fréquemment dans des vers courts. Une vérification sur des formes brèves révèle pourtant que l’un des compteurs fournit une valeur erronée ; ex. pour « a », il y a coïncidence à nouveau entre les deux compteurs (9 950 items), alors que le mot se répète dans certains vers (ex. PC 3, 4:5, PC 5, 2:20). Un contretest sur une forme moins fréquente comme « cortz » (81 occ., 81 vers) montre que c’est le compteur Vers qui est faux : « cortz » se rencontre 3 fois dans PC 335, 36:10 ; le nombre de vers est donc de 79, non de 81. Il ne faut pas tenir compte de ce compteur.

Une fois que la recherche sur « traidor » est arrivée à son terme (un curseur à droite permet de suivre le bon déroulement de l’opération), il suffit de cliquer sur le bouton Suite pour ouvrir la page des Résultats. L’étendue de texte demandée est, implicitement, de 1 vers, mais on peut demander un contexte de 7 vers pour chaque occurrence ; bien plus, en sélectionnant une forme sur la page des Résultats et en cliquant sur le bouton Contexte il est possible d’afficher le texte entier. Cet éventail de possibilités rend la consultation extrêmement efficace et séduisante.

Le même résultat peut être obtenu en sélectionnant directement une forme dans le Vocabulaire complet (elle s’inscrit aussitôt dans la fenêtre de droite) et en cliquant sur Suite on affiche la page Résultats.

On peut, bien sûr, sélectionner plusieurs formes et demander leur concordance. À noter que, tant qu’on n’a pas lancé une nouvelle recherche, les résultats de la dernière recherche demeurent accessibles dans Résultats, même si l’on a fait table rase des formes interrogées en cliquant sur Sortir. De toute façon, ces résultats peuvent être exportés soit dans un fichier soit vers l’imprimante à l’aide des boutons prévus à cet effet sur le premier bandeau à gauche. La sélection de plusieurs formes peut servir, accessoirement, à calculer le total de formes se rattachant en principe à un même lemme : ainsi, il suffit de sélectionner « abandona », « abandonada », « abandonan », « abandonar », « abandonatz », « abandonava » pour savoir que ces 6 formes réunissent 26 occurrences.

Néanmoins, l’utilisation de Mot est limitée aux formes entières que l’on sélectionne dans le Vocabulaire complet ou que l’on tape dans la case qui se trouve à gauche du bouton Mot. Les autres consultations de la base doivent se faire en recourant à Préfixe ou à Suffixe.

Mais avant d’aborder ces deux procédures, signalons que la référence exacte de chaque vers ou poème cité peut être consultée dans la Bibliographie grâce au bouton du bandeau qui figure sous la page Résultats : la bibliographie s’ouvre sur la référence du poème où se trouve le pointeur (il n’est même pas nécessaire de sélectionner le vers ou sa référence). La fenêtre qui s’affiche alors permet de remonter jusqu’à l’auteur et l’édition utilisée. Un système plus rapide serait sans doute apprécié des utilisateurs, qui aimeraient voir s’afficher directement le nom de l’auteur (ou la mention « Anonyme ») et l’année (connue, probable, possible) de composition, avec accès optionnel aux références de l’édition — sachant que par ailleurs on peut consulter la Bibliographie complète.

Signalons aussi en passant que les mêmes références bibliographiques sont accessibles à partir de la concordance des Premiers Vers obtenue en cliquant sur ce bouton. Qu’on peut, d’autre part, obtenir pour chaque vers de cette concordance l’affichage du texte entier du poème dont il fait partie, en cliquant sur le bouton Contexte. Enfin, qu’une forme sélectionnée dans un premier vers et copiée peut être collée dans la case Mot et servir aussitôt à une recherche particulière sur ce mot (dans le cadre du Vocabulaire complet).

Au titre des suggestions, on aimerait dans bien des cas pouvoir sélectionner en même temps plusieurs formes du Vocabulaire en balayant les cases où elles figurent (sans être obligé de cliquer séparément sur chacune d’elles), par exemple toutes les formes commençant par une lettre donnée. Mais cette possibilité ne remettrait-elle pas en question d’autres choix ?

6. Recherche à l’aide de Préfixe et de Suffixe

Sans doute n’est-il pas inutile de préciser ici que Préfixe ne s’entend pas au sens grammatical (même si dernier n’est pas exclu), mais au sens informatique banal ; c’est-à-dire qu’il désigne tout début de mot virtuel, comme Suffixe désignera toute fin virtuelle, aussi courte ou aussi longue qu’on le désirera. C’est en fonction des limites de début et de fin qu’on choisira, plus que l’un des boutons, l’un des modes d’exploration.

La séquence proposée à Préfixe ou à Suffixe étant d’une étendue variable, elle pourra correspondre à divers types de recherche. Préfixe peut servir, si l’on entre une seule lettre, à connaître le nombre de formes commençant par ladite lettre : ainsi pour <b> la COM renferme 1 281 mots différents. Une recherche par la case Mot ne fournirait qu’une forme, « b ».

Des blocages ont plusieurs fois été provoqués par ce genre de question monolittérale : la recherche commence normalement mais reste en suspens tandis que s’affiche le message « Run-time error ‘380’ Invalid property value » ; sur le bandeau du haut s’affiche en même temps « COM ne répond pas » ; COM est fermée et il faut relancer le CD. [Il n’est pas impossible que le responsable de ces blocages soit le logiciel de simulation VirtualPC qui sert d’intermédiaire entre le Mac et COM1.]

Par exemple, <a> entré dans la case Suffixe déclenche cette réponse deux fois sur trois, sinon plus, ou fait cycler le programme (problème de mémoire ? ; il semble que les échecs interviennent plutôt quand on lance la recherche sur <a> à la suite d’autres recherches, et bien qu’on ait rafraîchi l’écran d’interrogation avec Sortir ; le succès est plus probable, quoique non assuré, lors d’une première interrogation). Quand la recherche aboutit (ce qui exige du temps), on apprend que le Vocabulaire complet renferme 7 956 mots se terminant par <-a>. Il est éprouvant d’en attendre la concordance (en cliquant sur Suite) : bien que le contexte ait été limité à un vers, la liste n’en était qu’au vers PC 392, 17:28 lorsque la procédure a été arrêtée au bout d’un quart d’heure (à l’aide de Stop).

Mais il s’agit là d’un test un peu extrême. Le plus souvent la question sera plus limitée. On souhaitera, par exemple, savoir quels sont les mots qui commencent ou se terminent par <a>. Pour une demande de ce type, les deux démarches (Préfixe et Suffixe) sont possibles en principe — la formulation passant, de toute façon, par l’utilisation d’un joker. COM ne dispose que d’un joker couvrant plus d’un caractère sans limitation du nombre de caractères intermédiaires : <*>. Mais dans ce cas , qui devrait être un cas général, la spécificité implicite de <*> rend le joker inopérant avec les modes d’interrogation Préfixe et Suffixe (<a*a>) : avec Préfixe on recueille tous les mots qui ont un <a> après le <a> initial, que ce deuxième <a> soit interne ou final. Avec Suffixe on obtient un résultat symétrique aussi inadapté. Pour une recherche de cette nature la case appropriée est donc la case Mot, où la séquence-question <a*a> sélectionne (exclusivement) les 776 mots qui commencent et se terminent par <a>.

Pour obtenir les résultats désirés, il faut par conséquent choisir la bonne porte d’entrée. Car la même question posée dans l’un ou l’autre cadre donnera des résultats très différents. Ainsi, <a?> dans Préfixe permettra d’obtenir la liste des mots commençant par <a> (3 841) — le joker <?> représentant un caractère quelconque (mais un seul ou moins) — : les caractères suivants sont virtuellement indéfinis puisque <a?> ne désigne qu’un début de mot. Introduite dans Mot, <a?> fournira la liste des mots commençant par <a> et ne comportant que deux caractères au maximum (16 unités). En revanche, introduite par Suffixe la même question sélectionnera à la fois les mots se terminant par <a> (dans ce cas <?> opère avec sa valeur minimale, 0) et les mots dont l’avant-dernier caractère est <a> (de fait, cette recherche n’aboutit pas et bloque le programme). Pour connaître les mots ayant <a> comme avant-dernier caractère et seulement eux, il conviendra d’employer, dans Suffixe, le joker <=>, qui lui représente un caractère quelconque mais ne peut prendre la valeur 0 (il arrive ici encore que le programme cycle sans avancer et bloque COM). Quand la recherche aboutit, elle recueille 5 749 mots qui tous présentent la caractéristique visée. Ces mots concernent 73,6% des vers (85 161). [Un sous-programme nouveau, assurent les auteurs, devrait désormais éviter tout blocage dans COM2.]

En combinant les possibilités des trois modes d’interrogation (Mot, Préfixe, Suffixe) et des jokers ou de leurs combinaisons, on peut réaliser, on l’imagine, de multiples recherches sur les unités et les paradigmes du vocabulaire.

7. Contributions et limites des « opérateurs booléens »

Comme il a été indiqué plus haut, les jokers, qui représentent un caractère ou son absence ou plusieurs caractères, ne sont pas à proprement parler des opérateurs booléens (‘et’, ‘ou’, etc.). Ils permettent de neutraliser dans une séquence la nature du caractère au bénéfice de la place. Ils sont au nombre de trois :

Mais les séquences ainsi constituées, comme on l’a vu, changent de valeur selon le cadre d’interrogation utilisé. Ainsi <a*> dans Mot fournit le même résultat que <a?> dans Préfixe, à savoir la liste des 3 841 mots qui commencent strictement par <a> ; ceux qui sont préfixés d’une marque (ex. « -a ») ne sont pas atteints : aucun des jokers ne permet, semble-t-il, d’obtenir à la fois les mots qui commencent strictement par <a> et les mots dont le <a> initial est précédé d’un signe ; tout au plus peut-on vérifier les formes du second type en recourant à <?a> dans Mot, suivi d’un nombre croissant de <?> : <?a> débusque « -a », <?a??> signale « -atz », ou utiliser directement dans Préfixe les signes pouvant précéder <a>, soit <·a>, <-a>, voire <‘a> en prévoyant d’éventuelles erreurs de saisie ou de découpage (puisque l’apostrophe est normalement solidaire du caractère qui la précède)…

Si l’on veut connaître tous les mots commençant par <a> et composés de 4 caractères, <a===> dans Mot fournira le résultat (327 mots). La même séquence dans Préfixe sélectionnerait 3 727 mots commençant par <a> et ayant au moins 4 caractères. Quant à <a???>, elle donnerait tous les mots commençant par <a> et possédant entre 1 et 4 caractères, tandis que dans Suffixe la séquence sélectionnerait les 20 772 mots ayant un <a> final ou en position –1, –2, –3 : « a », « ad », « aço », « açar », « abrassatz » (de longueur diverse). Pour obtenir tous les mots de 1 à 4 caractères se terminant par <a> il faudrait demander dans Mot <???a> (mais la plus grande prudence est conseillée avec ce type de demande, qui bloque souvent, soit COM, soit l’ordinateur — en tout cas on a intérêt à vérifier que COM1 dispose sur l’ordinateur d’une mémoire suffisante pour réaliser ce genre de recherche —).

Dans le Vocabulaire des Rimes, <a???/> dans Mot fournirait la liste des mots commençant par <a> et comportant de 1 à 4 caractères qui se trouvent à la rime (228 items) ; de même <a???%> fournirait les mots présentant ces caractéristiques et qui se trouvent employés comme rimes internes (47). <a*s%> dans Mot permettant de sélectionner les (33) mots commençant par <a> et se terminant par <s> employés comme rimes internes (dans ce cas, la séquence employée dans Préfixe aurait le même effet puisque % est obligatoirement final, mais non dans Suffixe, <a> pouvant alors être interne).

L’utilisation des jokers peuvent faire l’objet de deux types de recherche : soit isolés, soit en combinaison.

<=> employé seul dans Mot sur le Vocabulaire complet dresse la liste de tous les mots ne comportant qu’un caractère (23 unités). On constate que toutes les lettres de l’alphabet correspondent à des mots (sauf <h>, <k>, <w>) ; à côté de « o » on remarque aussi « ò » (4 occ.).

Utilisé de la même façon dans le Vocabulaire des Rimes, il s’avère ambigu, à cause du statut trop imprécis assigné à la marque de rime : sur les 16 mots relevés deux seulement répondent strictement à la question, « % » et « / » ; les autres, des digraphes, comprennent <%> et </> comme caractères finaux ; ils ne coïncident pas avec le critère imposé par la demande. En réalité, les mots « % » et « / » obtenus par cette question n’en sont pas réellement : ce sont des signes isolés d’un mot à la suite d’une erreur de découpage ou de codage (« l’ades’% » PC 173, 1a:52, « esper’% » PC 173, 1a:64 ; pour </:> les 575 occurrences de vers à finale lacunaire ou comportant d’autres signes mal pris en compte), cf. ce qui a été dit plus haut. À condition d’éliminer des textes ou du programme ces découpages anormaux, on pourrait poser comme règle générale que la marque de rime (</> ou <%>) n’entre pas dans le décompte des caractères. Mais dans l’état actuel des choses, les perturbations se répètent si l’on ajoute un caractère à la question en introduisant dans Mot <==> : la liste obtenue renferme à nouveau des mots d’un caractère (le deuxième étant <%> ou </> : « a% », « a/ », « c/ », etc.) et des mots de trois (si l’on compte <%> ou </>). Or </> ne peut pas être considéré comme un caractère répondant à la question dans « a/ » s’il ne l’est pas dans « ac/ ». La même erreur se retrouve évidemment quel que soit le nombre de <=> employés dans la question.

<=> utilisé dans Préfixe ou dans Suffixe devrait normalement fournir un double de la liste source du Vocabulaire. Pour des raisons de volume et de temps, la question a été posée dans le cadre du Vocabulaire des Rimes. L’expérience, des deux côtés, confirme la prévision (et le total des unités du Vocabulaire des Rimes — finales et internes — : 24 630 mots). En revanche, l’affichage complet n’est pas possible (au bout de quelque temps le programme envoie un message d’erreur : « Run-time error ‘6’, overflow »).

<?> dans Mot sur le Vocabulaire complet donne le même résultat que <=> (23 unités), un mot ne pouvant avoir 0 caractère (l’une des valeurs de <?>). Utilisé sur le Vocabulaire des Rimes il présente la même ambiguïté que <=>, puisqu’il sélectionne à la fois « % », « / » et « a% », « a/ » etc. Avec Préfixe et Suffixe il fournit les mêmes résultats que <=>, toujours parce que sa seule valeur possible est 1.

<*> employé seul dans Mot, Préfixe ou Suffixe, sur le Vocabulaire complet renvoie à l’intégralité du vocabulaire, comme <=> ou <?> Suffixe.

L’intérêt principal des jokers est évidemment d’être combinables avec des caractères réels. Ils ont été considérés plus haut séparément. Il est possible de les associer dans une même expression. Ainsi, pour obtenir les mots de 4 ou 5 caractères commençant par <ca> on introduira dans Mot la séquence <ca==?> : il y en a 166 (dont il faudra soustraire néanmoins les trigraphes se terminant par un signe comme « cad’ », « cai’ »). Pour obtenir tous les mots de 3 ou 4 lettres terminés en <ar>, on entrera <?=ar> dans Mot : ici le résultat (38 mots) ne comporte aucune erreur ; <=ar> fournira le nombre exact de trigraphes (11) et <==ar> le nombre de mots de 4 caractères (27). De la même façon, <==ar*> dans Mot fournira la liste des mots (de longueur quelconque) comportant <ar> comme 3e et 4e caractères : 456 unités comme « abarona », « alarc », « amar », « amar’ », « chartenguda » (sans oublier qu’un signe peut occuper la place du premier caractère : « -dar », « -darai », « ‘para »). Il équivaut à la question <==ar> dans Préfixe. Mais <==ar*> dans Suffixe étendra le champ des réponses puisque <==> ne désigne plus le début du mot, mais toute séquence de deux caractères se rencontrant avant <ar> à n’importe quelle distance de la fin : « abitar », « abaisaria », « aparegutz » (2 992 unités).

Un problème particulier est la recherche d’une séquence donnée à l’intérieur des mots. Dans sa plus grande généralité elle peut se formuler <*a*> (dans Mot), qui recueillerait tous les mots possédant <a> quel que soit le contexte avant et après. Tout caractère supplémentaire réduira le champ des possibles en augmentant la spécificité de la séquence. Soit <*abr*>, elle sera identifiée dans 115 mots avec tous les contextes possibles : « abraçar », « cabra », « chabrol », « @marcabru ». Diverses modulations sont aisément réalisables en associant un autre joker. Par exemple, avec <=abr*> on éliminera les mots où la séquence recherchée se trouve à plus d’un caractère du début (il n’en restera que 40 des 115) ; avec <*abr=> on éliminera ceux qui sont à plus d’un caractère de la fin. Mais si l’on voulait vérifier l’éventualité d’une autre lettre entre <a> et <b> dans la séquence, on pourrait recourir au troisième joker avec l’expression <*a?br*>, ultérieurement réduite à <=a?br*> ou <*a?br=> ou à tout autre contexte souhaité. La première (qui fournirait 170 mots), montrerait qu’en effet <l>, <r>, <m>, <n>, <i>, <u> peuvent s’intercaler entre <a> et <b> (« albre », « arbre », « achambra », « @canbrai », « aibrir », « caubra »). Ces premières réponses pourraient servir à cibler plus précisément une configuration, par ex. <*ambr*> (en conservant le double contexte le plus large — 11 mots en réponse —) ou tel autre qui le limiterait encore, comme <=ambr*> (2 mots : « cambr’ » et « cambra ») ou <*ambr=> (6 mots, parmi lesquels, compte tenu de leur longueur, on retrouve les deux précédents…).

À l’usage, donc, les divers types de combinaison que rendent possibles les 3 jokers de COM autorisent des recherches très variées et complexes, puisqu’en jouant sur le nombre des caractères de la chaîne et sur la neutralisation d’un quelconque d’entre eux on peut atteindre les combinaisons alphabétiques les plus rares (ou les plus inattendues !).

Sans doute est-il indispensable d’analyser correctement leur fonction, par rapport à chacune des cases dans lesquelles on introduit la question. Par exemple, dans Suffixe <===‘> fournira les mots terminés par <‘> ayant au moins 4 caractères (en comptant <‘> ou sans le compter). Si l’on recherche les mots terminés par <‘> et ne possédant pas plus de 4 caractères, il conviendra de poser la question par Mot. Si l’on recherche tous les mots se terminant par <‘>, quelle que soit leur longueur, la question <*’> sera posée dans Mot ou dans Préfixe (puisque <‘> est final normalement).

On notera en particulier qu’il n’est pas possible de lancer conjointement une recherche avec Préfixe et une recherche avec Suffixe ; en utilisant l’un de ces deux modes d’interrogation il faut donc prévoir les conséquences de son choix par rapport à l’autre partie du mot ciblé : soit la fin si l’on emploie Préfixe, soit le début si l’on emploie Suffixe, et peut-être se demander d’abord si une recherche par Mot n’est pas indiquée…

Un regret revient souvent quand on examine COM : il serait très pratique (et combien économique en temps) de pouvoir utiliser la liste de droite (résultats d’une première recherche) pour affiner progressivement et réduire étape par étape le champ d’une question. La nécessité d’effacer les résultats précédents pour lancer une nouvelle recherche allonge considérablement le temps global d’utilisation. Pour être pleinement satisfaisant, il faudrait que le système n’affiche le Vocabulaire complet dans la fenêtre de gauche qu’en début de session ou en l’absence de toute recherche et qu’on puisse transférer dans cette fenêtre de gauche le contenu de la fenêtre de droite afin de l’explorer en réorientant la question suivant les résultats obtenus.

Pour compléter ce tour d’horizon des ressources de COM, on analysera la procédure de recherche par Associations.

8. Recherche par Associations

Associations est le troisième onglet qui figure dans le bandeau au-dessus des fenêtres. Dans son utilisation la plus simple il permet de rechercher dans le corpus les occurrences de deux termes A et B à une distance variant de 1 à 9 mots. Soit « abril » et « mai » sur une étendue de 9 mots : le programme trouvera 6 occurrences (de type AnB ou BnA, la question n’introduisant aucune priorité de A sur B dans l’ordre syntagmatique). Dans l’état actuel de COM il n’est pas possible — sauf erreur — d’imposer la priorité de l’un des termes proposés. D’autre part, le champ d’exploration paraît trop étroit : la longueur moyenne du vers étant de 6,26 mots (rapport entre le nombre total d’occurrences, 723 872, et le nombre de vers, 115 620), la recherche ne dépasse pas le 3e mot du vers précédent ou suivant si l’un des termes A ou B se trouve à la rime d’un vers moyen ; si le vers est plus long, la recherche se limite à peu près aux frontières du vers.

Le Guide (p. 15) ne donne aucune indication sur la façon dont est prise en compte la distance des deux termes, ni sur la manière dont fonctionne la recherche. A priori on pourrait imaginer que le premier terme traité, A ou B, explore de –9 à +9, c’est-à-dire sur un espace de 18 mots ; si, à partir de B découvert depuis A, le programme explore le champ de +1 à +9, la zone couverte peut atteindre jusqu’à 27 caractères, voire plus, et recueillir, outre les AnB et BnA, les contextes où les termes se répéteraient, ex. AnBnA, BnAnB, etc.

Quelques vérifications sur l’association <amors> ~ <cor> jusqu’à 9 mots permettent de constater que la distance maximale entre deux mots est bien de 9, bornes exclues (c’est-à-dire sans compter les deux termes de la recherche), ex. 174, 5:3-4 « qe fin’amors m’en deffent e jovenz / qe m’art lo cor aissi totas sazos » (comp. 213, 1:11-12 ; 213, 3:23-24). Que d’autre part, en cas de répétition du terme B après le terme A dans l’espace +9, la recherche identifie deux associations : ainsi, en PC 30, 8:13-14, « Amors » est suivi de « cor » à +4 (borne exclue) et à +9 (id.) ; les deux associations sont présentées comme des exemples séparés (id. en 167, 38:54 : « c’aitals amors li taing ab cor cor venal » ou en 174, 8:67-69). Lorsque le terme A est à la fois précédé et suivi du terme B, le résultat mentionne alors deux associations si chacun des termes B se trouve au maximum à 9 mots de A ; en réalité, les places s’échangeant, la recherche s’effectue toujours de +1 à +9 du terme choisi comme référence, autrement dit toujours en descendant, jamais en remontant : ainsi en 249, 2:45-47, où « amors » est précédé à –8 et suivi à +1 de « cor », le programme, partant d’abord de « cor », relève une première association « cor » ~ « amors » à +8, puis, repartant de « amors », relève une association « amors » ~ « cor » à +1 (borne exclue).

Compte tenu du fait que deux vers comprennent en moyenne 12 mots, on ne s’étonnera pas que de nombreuses associations ne mettant en cause que deux vers n’apparaissent pas dans les résultats : cf. 16a, 2:8-9 (distance 10), 30, 24:20-21 (11), 29, 17:1-2 (12), etc. On pourrait souhaiter que le programme explore au moins deux vers entiers moyens (voire un peu plus pour couvrir les vers dépassant un peu la longueur moyenne, par exemple sur une distance de 15 mots), mais il fonctionne correctement dans les limites qu’il s’est fixées (de +1 à +9) et selon le mode de prospection retenu (toujours à droite de la première borne).

On remarquera que la répétition d’un même terme n’est qu’un cas d’espèce d’association. Ainsi on pourra chercher quelles sont les répétitions du mot « amors » en choisissant l’association <amors> ~ <amors> sur une distance de 9 mots. On disposera alors de la concordance des répétitions de « amors » dans le corpus (majuscules et minuscules initiales sont neutralisées). Une suggestion que l’on ferait volontiers aux responsables du projet COM serait de mettre en gras, dans les concordances, les mots associés, comme ils le font dans les concordances du Vocabulaire. Les résultats seraient beaucoup plus lisibles (en outre le repérage des distances se ferait beaucoup plus vite).

Mais il est possible d’étendre passablement les modalités d’exploration en utilisant ici encore les trois jokers déjà examinés. Le Vocabulaire complet montre que la forme « amor » est encore plus fréquente (2 418 occurrences) que la forme « amors » (1 774) ; que d’autre part « cors » ajouterait 1 538 exemples aux 2 471 de « cor ». Au lieu de choisir l’association retenue plus haut on pourrait interroger les rencontres entre les 4 192 occurrences de « amor(s) » et les 4 009 occurrences de « cor(s) » en reformulant la question précédente : <amor?> ~ <cor?> à une distance de 9 mots. Après un premier essai (qui a bloqué l’ordinateur !), COM identifie 568 cas de rencontres (à comparer aux 168 de la recherche précédente).

Certes, il y a du bruit : « cora », « corn », « corr », « cort » notamment correspondent au schéma <cor?> ; on voit là que les jokers ne permettent pas un choix booléen strict du type « amor » ou « amors » (à l’exclusion de « amora » etc.) associé à « cor » ou « cors » (à l’exception de « cora » etc.). Cela dit, les exemples qui ne répondent pas au modèle souhaité (12) peuvent être facilement repérés et éliminés dans le fichier de sauvegarde. Il reste 556 associations correctes : la moisson a été bonne…

Tous les autres types de question examinés précédemment peuvent être utilisés dans la recherche d’associations — avec toujours le risque de bruit signalé, dont il faudra tenir compte dans la formulation. Par exemple, <amor*> ~ <cor?> sur 9 mots fournirait 651 exemples. Un seul serait à écarter si l’on s’intéressait à la famille d’amor par rapport à cor (« amorta » PC 455, 1:1-3). Mais si on lançait une recherche sur <amor?> ~ <cor*> on aurait à en effacer beaucoup plus : 222 formes commencent par « cor- » dans le Vocabulaire complet et réunissent 5 939 occurrences… On pourrait aussi utiliser ensemble les trois jokers dans une question visant à sélectionner les associations entre les deux variantes <ver->, <vir-> de « vertut » et dérivés d’une part et les variantes <pec->, <pecc-> de « peccar » et dérivés de l’autre : <v=rt*> ~ <pec?*> sur 9 mots. La réponse ne comporte que 7 occurrences, dont 2 concernent « vertat(z) », non « vertut » ; il est remarquable que les 5 autres ne fassent intervenir que les variantes « ver- » et « pecc- », mais le résultat est conforme aux probabilités, ces deux variantes étant largement dominantes (<vert-> 7 formes, 86 occ. / <virt-> 1 forme, 2 occ. ; <pec-> 10 formes, 40 occ. / <pecc-> 20 formes, 229 occ.).

À souligner qu’il convient de ne lancer le programme sur une expression comprenant des jokers qu’après avoir vérifié la correction de la ou des séquence(s) ; COM n’apprécie pas les caractères incongrus : le programme bloque sans délivrer d’autre message que « COM ne répond pas » ; deux exemples de signes employés au cours des tests et dont l’emploi a provoqué un blocage : <£> introduit à la place de <*> dans « pec£ » et <!> substitué à <=> dans « v!rt* ». Serait-il possible d’intégrer à COM un sous-programme qui vérifierait la validité des questions avant de les lancer et enverrait un message d’erreur permettant de corriger l’erreur en évitant le blocage ?

En laissant de côté ces dysfonctionnements provoqués, la recherche par Association de termes deux à deux se montre souple et efficace. Chacun est susceptible de l’adapter à des curiosités multiples, même excentriques. Il y a cependant des recherches qui, sans provoquer de blocage, n’aboutissent à aucun résultat, bien que les textes renferment des exemples de la configuration recherchée. C’est notamment le cas lorsqu’on utilise pour formaliser la situation du terme B en début de vers le caractère </>, par ex. pour rechercher les associations entre « cor » et « Amors » initial de vers (</?Amors>) : aucun résultat n’est obtenu, bien qu’une recherche se déroule effectivement, alors qu’ « Amors » initial suit « cor » en PC 10, 8:44-45, PC 10, 42:23-25, etc. ou le précède en PC 30, 6:37, PC 47, 4:41-42 ; il semble que le caractère soit inopérant, puisqu’une question sur l’association entre <cor> et <Amors/> n’aboutit pas davantage, alors qu’elle est attestée en PC 29, 12:5-6, PC 155, 14:41-43, etc.

D’une manière générale, le Guide omet de préciser quel est le statut des caractères non littéraux dans les séquences d’interrogation et dans le fonctionnement du programme (<.>, <—>, <!>, <‘>…). On constate qu’une recherche <cor?> ~ <d’amor> n’aboutit pas — ce qui laisse penser que le programme ne reconnaît comme terme d’association que les unités du Vocabulaire complet, « d’amor » étant considéré comme une suite de deux unités, suite que le programme ne prend pas en compte. On aimerait connaître également le statut des blancs et savoir s’ils peuvent être utilisés dans les questions. Mais à nouveau, le programme ne travaillant pas sur les textes mais sur des unités de vocabulaire, un blanc séparant deux formes ne peut être accepté comme élément d’une chaîne de caractères dans une séquence d’interrogation. Ici l’absence de résultat a valeur de réponse.

Après quelques remarques sur la page Résultats, ce tour d’horizon de COM se terminera par un examen de l’Aide.

9. La page des Résultats

Le Guide présente avec précision les modalités d’affichage sur l’écran Résultats ainsi que les diverses ressources mises à la disposition de l’utilisateur (p. 12) : possibilité d’afficher le texte entier, de consulter la bibliographie, etc. Les concordances issues d’une recherche sur le Vocabulaire complet ou le Vocabulaire des Rimes affichent en gras les mots correspondant au terme interrogé. Ce système est très pratique et l’on souhaiterait le voir utilisé dans l’affichage des exemples d’association (cf. ci-dessus). Mais il arrive qu’un mot se répète dans un même vers ; les deux occurrences figurent alors en gras, ex. « amors » PC 21, 1:2, PC 21, 1:11 etc., bien que le vers concerné soit cité deux fois. Normalement, seule l’occurrence concernée par chaque citation devrait figurer en gras.

Dans les Résultats des recherches par Association les citations sont séparées par une ligne blanche, ce qui les délimite parfaitement. Il arrive parfois que l’espace soit de deux lignes, ce qui réduit d’autant la page affichée. Ainsi, avec <amors> ~ <amors> après PC 70, 42:21, avec <del> ~ <del> après PC 335, 14:15. Il ne s’agit sans doute que d’un petit détail à régler…

10. L’Aide et ses menus

L’essentiel du contenu du Guide est repris dans l’Aide accessible par le bouton Aider. Comme dans la plupart des utilitaires de ce type on s’attendrait à trouver en première option un Sommaire, dans lequel on pourrait s’orienter en fonction de la difficulté du moment. En fait, lorsqu’on clique sur Aider, on se trouve en présence de 4 menus :

Contrairement à ce que suggérerait l’ordre des sous-menus, Contenu n’est en rien l’équivalent du Sommaire : il se borne à fournir une notice sur le « lexique complet », qui se répète ailleurs.

On ouvre donc le deuxième sous-menu, Chercher qqch : il comprend 4 rubriques :

A priori, Aide n’est pas une appellation pertinente pour un sous-menu d’Aide. Bienvenue introduit à deux sous-menus : Lexique et Bibliographie.

Lexique répète simplement la notice de Contenu. Pour rendre la consultation plus rationnelle et rapide, il semblerait donc judicieux de remplacer, en premier lieu, Contenu par un Sommaire précis, qui pourrait reprendre les rubriques de l’actuel Aspects :

La notice sur le lexique qui figure actuellement dans Contenu et dans Bienvenue serait plus à sa place dans le sous-menu Listes lexicales. Bibliographie ferait l’objet d’un autre sous-menu du Sommaire, qui devrait réserver une entrée à chacune des structures principales de COM : Caractères utilisés, Recherche avec Mot, Recherche avec Préfixe, avec Suffixe, Jokers, Recherche par Association (contenu actuel d’Aspects, dans un ordre légèrement différent)…

Le sous-menu Aide gagnerait à s’appeler Contacts dans le Sommaire, au lieu d’introduire lui-même à un unique sous-menu Contacts.

Enfin, l’unique sous-menu d’Appendice, Alphabet COM, gagnerait à être refondu avec l’actuel sous-menu Caractères, d’Aspects.

Une restructuration adoptant plus ou moins le schéma ici suggéré présenterait en outre l’avantage de faire coïncider la présentation d’Aide avec le système de renvoi choisi par les auteurs eux-mêmes dans les diverses rubriques : ce système distingue un onglet Sommaire et un onglet Précédent permettant de remonter dans les sous-menus. Le contenu de chaque rubrique, sauf pour Lexique et Caractères, n’aurait en rien à être modifié : les notices sont au contraire rédigées avec une remarquable clarté et une magnifique concision.

11. Bilan de cette première version

Dans son état actuel COM1 présente déjà un immense intérêt dans la mesure où elle met à la disposition d’un large public le vocabulaire du corpus entier de la lyrique occitane. Base de données lexicale, non textuelle, elle permet néanmoins d’accéder aux textes grâce à un système d’affichage rapide à partir de n’importe quelle citation figurant dans ses résultats.

Son système d’interrogation est plus adapté, néanmoins, à des consultations limitées, pour ne pas dire ponctuelles, qu’à des explorations systématiques, comme on pourrait souhaiter en réaliser, notamment en vue d’études linguistiques globales et statistiques de l’occitan. Diverses suggestions ont été faites pour accroître ses possibilités au niveau de la sélection (ex. balayage de toutes les formes commençant par un caractère donné), ou de l’utilisation des résultats (afin que les résultats de la dernière recherche puissent servir de point de départ à la recherche suivante, avec conversion de la fenêtre de droite en fenêtre de gauche).

Toutes ces suggestions sont faites seulement dans le souci d’augmenter les performances du logiciel ou, si l’on préfère, de rentabiliser l’énorme investissement qui a été consenti pour la réalisation de ce disque. Bien qu’elles représentent, en un sens, un changement de philosophie au niveau de la conception et des finalités, elles ont paru prolonger naturellement ce banc d’essai exigeant ; elles correspondent aussi à l’ambition des auteurs d’enrichir l’information textuelle et de diversifier son exploitation.

Deux aspects mériteraient d’être pris en compte particulièrement, l’un concernant plus directement les textes, l’autre le logiciel d’interrogation. L’unique possibilité donnée actuellement d’interroger les textes à partir des unités lexicales limite beaucoup l’exploitation du corpus, même pour des chercheurs littéraires ou historiens soucieux surtout de connaître les contextes d’un mot. Le logiciel gagnerait, soit à se doter d’un sous-système permettant d’interroger le corpus textuel en lui-même, une fois connues les unités lexicales attestées, soit à se développer pour rendre possibles à la fois les recherches statistiques et l’exploration du texte intégral. Autrement dit, il devrait accepter que la question soit une chaîne syntagmatique dépassant le mot et admettant des séparateurs comme le blanc, le point ou l’apostrophe, ce qui aurait, en outre, l’avantage, de ne pas isoler un vers du vers suivant.

Quant au logiciel, s’il offre dès maintenant, comme on l’a vu, de très vastes possibilités d’exploration, il semble renfermer encore trop d’occasions de blocage sans échappatoire, notamment quand on emploie les jokers, et surtout <?>. Certes il convient de faire la part des choses et d’attribuer certains d’entre eux au simulateur PC utilisé. Mais compte tenu du fait que la plupart des blocages se sont produits quand on a voulu tester au maximum certaines ressources logiques, il est peu probable qu’ils soient tous imputables à l’environnement des essais.

Quoi qu’il en soit, le tour d’horizon présenté dans cette étude aimerait contribuer, si faire se peut, à la mise au point des versions futures de COM et, dans l’immédiat, du Guide et de l’Aide — dont le contenu est excellent et qui appellent de simples retouches de présentation pour être plus rationnels et efficaces. Que les auteurs veuillent bien considérer toute critique comme une suggestion et l’ensemble de ces tests comme un hommage à leur constance et à leur travail. Ils ont été réalisés, non seulement pour apprécier les possibilités et les limites de la première version, mais en pensant aux trois CD annoncés d’ici 2010

Référence

Concordance de l’occitan médiéval (COM)
Direction scientifique Peter T. Ricketts, direction technique : Alan Reed, avec la collab. de F.R.P. Akehurst, John Hathaway, Cornelis Van der Horst, Turnhout, Brepols, 2001, 1 CD-ROM, 1 guide d’utilisation français et anglais (16 p. x 2), 1 fasc. de bibliographie (62 p.).

Note

1 En fait, depuis la rédaction de cette étude, la deuxième tranche de la Concordance de l’Occitan Médiéval a été publiée. Il s’agit de COM2. Les Troubadours. Les Textes narratifs en vers, Turnhout, Brepols, 2005 (ISBN 2-503-51416-2). Il fera bientôt l’objet d’un examen aussi détaillé que celui de COM1.