Le Médiéviste et l’ordinateur
Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies
n° 40 (Automne 2001) : La numérisation des manuscrits médiévaux
Previous PageTable Of ContentsNext Page

Le « Projet Charrette » à Poitiers

René Pellen
http://www.mshs.univ-poitiers.fr/cescm/lancelot/index.html

1. Le « Projet Charrette » : du site de Princeton au site de Poitiers

2. Les opérations réalisées ou en cours à Poitiers

3. Perspectives et problèmes

 

1. Le « Projet Charrette » : du site de Princeton au site de Poitiers

L'histoire du projet jusqu'en 1997 est rappelée sur les deux sites de Princeton et de Poitiers. Après de nombreux échanges, un colloque, organisé par Karl Uitti, initiateur du projet, a réuni à Princeton en mars 1997 des romanistes d'Europe et d'Amérique ; l'une des conséquences immédiates de ce colloque a été une collaboration entre le Département des Langues Romanes de Princeton et le CÉSCM. Un deuxième site Lancelot fut donc installé à Poitiers, un peu comme un symbole de cette collaboration (mars 1998). Mais ce site n'était au départ qu'un site-miroir du site américain ; Princeton en gardait du reste la gestion. De mars 98 à mars 2000 les deux sites n'ont pas été modifiés. En mars 2000 K. Uitti a accepté que Poitiers prenne en main la gestion de son site.
Les sites offraient à ce moment :
- 7 des 8 manuscrits de l'oeuvre 1 (saisis en mode image folio par folio et en couleurs, soit environ 340 images) 2 ;
- les transcriptions diplomatiques de ces manuscrits (en mode texte, codé SGML) ;
- la version critique que K. Uitti avait publiée avec Alfred Foulet chez Bordas (1989) ;
- une traduction en français moderne.
L'ensemble de ces documents était accompagné d'un essai sur Chrétien et sa tradition manuscrite, et de deux index (leçons rejetées et noms propres) 3.
Quand nous avons pris en main la gestion du site de Poitiers, voici donc à peu près quel bilan nous faisions :
- on disposait d'une archive textuelle sans équivalent, rendant possible à tout moment la consultation des manuscrits ;
- on pouvait également, moyennant quelques détours, analyser la matérialité même des textes par l'intermédiaire des codages SGML, qui représentaient aussi fidèlement que possible la réalité graphique des manuscrits ;
mais
- la présentation matérielle restait un peu sommaire ;
- il n'y avait pas de mode d'emploi ;
- les transcriptions SGML étaient moins destinées à la lecture qu'à la recherche à travers les balises ;
- les liens pour la navigation interne étaient insuffisants ;
- le site offrait peu de ressources d'aide à la recherche ;
- il n'y avait pas du tout de liens avec l'extérieur ;
- on ne pouvait pas afficher en même temps une transcription et un manuscrit.
En un mot le site était construit autour de la version critique ; c'était le seul texte vraiment lisible. Les transcriptions SGML, en revanche, pour peu qu'on dispose de moyens adaptés, autorisaient des recherches qu'aucun autre site n'avait permises jusque-là, mais présentaient l'inconvénient d'empêcher une lecture normale des textes. Enfin, l'archive manquait encore de ressources pour l'étude générale de l'oeuvre (index, liens avec les autres sites Internet).
C'est à partir de ce bilan que nous avons d'abord procédé à quelques modifications concernant :
- la disposition générale de la page d'accueil, priorité étant donnée à l'accès aux textes (c'est-à-dire globalement à l'archive textuelle) ; les éléments critiques ont été regroupés dans une autre partie ; pour étendre et compléter cet environnement critique, un dossier linguistique et littéraire a été ajouté pour regrouper l'information sur de nouvelles ressources (propres au site ou extérieures à lui) ; ces deux volets, qui sont appelés à se développer, pourraient constituer àterme un apparat critique d'un genre nouveau dont il convient de concevoir encore la forme et la fonction 4 ;
- l'utilisation de l'archive : un guide ou mode d'emploi sert d'introduction à l'exploitation du site ;
- l'apparence des pages : un fond uniforme et clair facilitant la lecture a été retenu de préférence au fond standard plutôt sombre.
Cette orientation a été prise en tenant compte des besoins de trois publics prioritaires : les chercheurs (de toutes disciplines) qui voulaient se repérer rapidement dans l'archive, les internautes qui recherchaient des ressources sur la langue du XIIe siècle, les enseignants et les étudiants spécialisés dans l'étude du français médiéval. La nouvelle page d'accueil comprenait donc quatre grandes subdivisions : un mode d'emploi, l'accès à l'archive (textes et images), le regroupement des pages critiques réalisées par Princeton, un dossier linguistique et littéraire.
On décrira un peu plus en détail dans la partie suivante les aspects principaux de la restructuration effectuée sur le site de Poitiers à la date de la Journée d'étude 5.

2. Les opérations réalisées ou en cours à Poitiers

Pour simplifier, on essaiera de réunir l'essentiel de ces opérations en cinq paragraphes distincts.

2.1. Interventions sur le site
Faute de temps les modifications relatives à la présentation des pages (fond, traduction, ajout de dates, de liens, etc.) n'ont été réalisées que pour le texte critique et les manuscrits A et C (C est le manuscrit de Guiot, BNF, fr. 794, le plus souvent utilisé par les éditeurs comme manuscrit de base). Chaque page de texte, dans les mêmes manuscrits - le texte était découpé en tranches de 1000 vers -, a été dotée d'une série de liens avec les pages précédentes et suivantes, ce qui a rendu aussi facile le déplacement longitudinal (d'un bout à l'autre d'une transcription) que l'était le déplacement horizontal d'une transcription à l'autre grâce aux liens disposés tous les cinq vers dans l'archive originale.
Dans la table générale des manuscrits ont été indiquées également les dates des copies ; si l'on désire plutôt une description des manuscrits, on peut se reporter au texte de présentation rédigé par K. Uitti. Ce texte, très dense mais composé de parties bien distinctes, a été analysé et des liens directs permettent d'accéder àchacune d'elles, soit : à l'arrière-plan historique et littéraire, à la tradition manuscrite, aux divers épisodes, aux sources probables, à la bibliographie. La table des manuscrits donne accès à une page d'entrée par manuscrit comportant des liens aux diverses tranches du texte et précisant les lacunes et les vers supplémentaires de chaque tranche. Les deux tables initiales permettent ainsi de connaître exactement l'état actuel de la tradition manuscrite. Analyse de l'étude générale et l'accès séparé aux divers épisodes (chacun porte un titre, suivi d'une brève description de son contenu) facilitent l'exploitation des ressources et accroissent la liberté de mouvement du lecteur ; une consultation non linéaire et sélective, voire thématique, est alors possible : un historien pourra être plus particulièrement attiré par l'épisode 20 (combat judiciaire) ou par l'épisode 22 (tournoi) ...
Dans le dossier linguistique et littéraire des liens de plus en plus nombreux se proposent d'offrir au chercheur une bibliothèque électronique, si l'on peut dire, à portée de clic. Il peut déjà lire en ligne les autres textes de Chrétien (seul le Cligès est encore absent du réseau) ; par l'intermédiaire de Ménestrel, il peut aussi se renseigner sur les autres textes d'ancien français accessibles ; enfin d'autres ressources lui sont signalées, qui peu à peu constituent un environnement électronique opérationnel : Lexique d'ancien français de Douglas C. Walker, index brut de La Charrette élaboré par l'équipe de Poitiers d'après le texte critique de Foulet-Uitti, index bruts ou lemmatisés établis à Ottawa par Pierre Kunstmann (Laboratoire de Français Ancien) 6, base grammaticale sur le verbe due à France Martineau (Ottawa, L.F.A.) ...

2.2. Transcriptions diplomatiques en clair
Bien que les transcriptions SGML ne soient pas en elles-mêmes des versions destinées à la lecture mais un mode de représentation des manuscrits, dans toute leur complexité, en l'absence d'autres versions des manuscrits dans l'archive elles en tenaient lieu néanmoins, « malgré l'atroce illisibilité virtuelle de ce format » (K. Uitti, « Une brève histoire du Projet Charrette »). Il n'existait, sinon, qu'un texte lisible, la version critique, basée sur le manuscritC, choisie par ailleurs comme référence commune pour la transcription des manuscrits.
La transcription en clair des versions SGML fut donc entreprise à Poitiers. En un sens elle se veut aussi « diplomatique » que la transcription SGML. Elle retient toutes les marques balisées - sauf certaines variations dans la forme des caractères : types divers de majuscules, s long et s court - ; elle s'efforce simplement de les représenter autrement, en conformité avec la tradition philologique courante. C'est ainsi que toute restitution figure entre crochets obliques. Aucune majuscule n'est ajoutée ou effacée ; aucune ponctuation n'est introduite dans le texte en dehors des rares passages où le manuscrit en possède ; aucun accent non plus. Mais, contrairement aux apparences, il ne s'agit en rien d'une conversion automatique de balises en séquences restituées. Un signe du manuscrit (comme un tilde, une apostrophe) peut prendre diverses formes, et surtout correspondre à des séquences alphabétiques différentes selon les contextes où il se rencontre. La restitution, qui rapprocherait la transcription d'une édition critique si elle ne refusait pas toute modification de la leçon transmise par le manuscrit, oblige dans bien des cas à une étude globale de tout le manuscrit et ne peut s'effectuer qu'après une étude de tous les contextes où le même phénomène se présente en toutes lettres. Ainsi l'apostrophe, codée [_apost;], sera-t-elle restituée à l'aide de quatre séquences différentes (<er>, <evalie>, <ex>, <ier>) : « herb<er>iage » (v. 987), « aub<er>s » (v. 3629) / « ch<evalie>r » (v. 24 et passim) / « K<ex> » (v. 193) / « mill<ier> » (v. 6008). Ceci, après vérification de toutes les occurrences de formes pleines. Mais on découvrira éventuellement des variantes graphiques ou morphologiques entre formes pleines, ex. « Kes », cas sujet au v. 164, hapax en face des 18 exemples de « Kex » au même cas. Cette variation peut entraîner des problèmes de choix aussi difficiles que dans une édition critique.
Malgré ces difficultés la transposition en clair des versions SGML (qui explicite par ses marques le caractère hypothétique de ses restitutions) devrait, à terme, offrir aux chercheurs un nouveau moyen d'accès aux textes (avec la possibilité permanente de regarder sur l'image du manuscrit la graphie de la source) ; elle devrait, pour la première fois, permettre une exploration systématique de la langue de chaque manuscrit. Par l'étude générale des balisages et les vérifications incessantes qu'elle exige dans les manuscrits mêmes, elle donnera l'occasion d'une vérification en retour du balisage SGML, des options retenues, de la localisation dans les manuscrits de certaines particularités d'écriture, de la légitimité de la version critique, etc.
Lorsque le manuscrit C aura été transcrit entièrement, les autres le seront peu à peu, et en premier lieu le ms. T (BNF, fr. 12 560), le seul complet avec le ms. C.
Il convient de préciser que les transcriptions en clair n'ont pas pour objet de remplacer les transcriptions SGML : les deux modes d'accès au texte seront partout présentés comme un choix pour l'utilisateur, qui pourra à sa convenance passer de l'un à l'autre. Des deux côtés il trouvera les mêmes liens aux manuscrits et à la version critique, selon la disposition originelle de l'archive.
Une fois achevée la transcription en clair d'un manuscrit 7, une version informatique de cette transcription sera réalisée, afin que le texte puisse être dépouillé de façon automatique 8. Progressivement le site accueillera donc les index bruts comprenant le vocabulaire exhaustif de chaque manuscrit.

2.3. Élaboration de l'index lemmatisé de « La Charrette »
L'un des objectifs étant d'enrichir le site en y introduisant des ressources d'aide à la recherche, il a été décidé de confectionner l'index lemmatisé du vocabulaire. Ce choix résulte aussi du désir de collaborer avec Pierre Kunstmann dans sa vaste entreprise lexicale concernant l'ancien français 9. Le seul texte utilisable quand le travail a été commencé était la version critique Foulet-Uitti. Ce texte a donc été dépouillé et l'index brut issu de ce dépouillement a été porté sur le site. Cet index, exhaustif déjà, comprend toutes les formes du texte et leurs références aux vers. Les noms propres ont été versés dans un index séparé qui, à terme, devrait être converti en glossaire : il serait alors assorti de commentaires et renverrait, à chaque fois qu'il serait nécessaire, aux autres oeuvres de Chrétien.
La lemmatisation est réalisée par une équipe de chercheurs et d'étudiants avancés de l'université de Poitiers. Elle pourrait aboutir, fin 2001, à une première version de l'index complet. Ce travail présente deux aspects principaux : d'un côté il consiste à regrouper sous des lemmes (ou formes canoniques) toutes les formes variables ou fléchies du texte ; mais en même temps chaque forme est indexée, selon des conventions précises (par exemple selon le genre, le cas et le nombre pour les noms, les adjectifs, les participes passés, les pronoms ; selon le mode, le temps, la personne pour les verbes). Les lemmes sont également indexés par catégories lexico-grammaticales. Pour le choix de ces formes canoniques la référence de base est le dictionnaire de Tobler-Lommatzsch ; mais l'index distingue parfois des lemmes que le dictionnaire réunit ; de nouveaux lemmes sont alors créés, conformément aux conventions choisies par les auteurs du dictionnaire.
Le travail de classement et d'indexation, ingrat souvent et très exigeant, impose d'in-nombrables comparaisons et conduit à passer au crible les choix de l'édition critique ; il invite aussi à vérifier dans les manuscrits toutes sortes de phénomènes (graphie, morphologie, syntaxe). D'ores et déjà l'index basé sur la version critique paraît devoir être considéré comme un bilan provisoire sur la langue de l'oeuvre. Par la suite, il intégrera les vocabulaires des divers manuscrits, au fur et à mesure que progresseront les transcriptions en clair, la mise en forme informatique des transcriptions et la lemmatisation de leur vocabulaire. L'ensemble aura pris, d'ici là, la forme d'une base de données, dont le prototype a été élaboré cette année à partir du sous-index des noms propres.

2.4. Base de données des noms propres
Dans le cadre des projets liés au Centre de Compétence Thématique « Informatique et histoire médiévale » formé par le regroupement de l'IRHT, de l'École des chartes et du CÉSCM, il avait été décidé, au mois de janvier 2000, de préparer une maquette qui aurait servi de vitrine au CCT et aurait élargi les moyens de travail des chercheurs de chaque composante en leur donnant accès à certaines ressources des autres composantes en Intranet. L'un des cinq secteurs retenus était celui des Textes ; Lancelot devait illustrer les recherches en cours sur les textes au CÉSCM. Pour réaliser ce projet en partant de l'existant, il avait semblé utile de proposer l'accès de l'archive à partir d'une base de données renfermant l'Index des noms propres et dont le contenu se serait élargi ultérieurement à tout le contenu de l'Index général. Cette base a été créée par Mathieu Le Petit, stagiaire informaticien recruté par l'IRHT et travaillant au CÉSCM (mai-juin 2000) 10.
Elle est maintenant opérationnelle, mais non encore installée sur l'Intranet (non créé). Elle permet d'interroger l'index à partir d'un vers, d'une forme ou d'un lemme, de remonter à la version critique, aux transcriptions et au fac-similé du manuscrit choisi. Il est possible également de formuler des requêtes en s'appuyant sur les divers paramètres de l'indexation (nom / verbe, masculin / féminin, cas sujet / cas régime, sing. / plur., etc.). Des changements récents intervenus au CÉSCM risquent malheureusement de remettre ce projet en question.

2.5. Autres bases de données
Sur une proposition de nos collègues de Copenhague et d'Ottawa, un autre projet consisterait à élargir la base de données sur le verbe médiéval que Lene Schoesler et France Martineau, séparément, ont créée sur deux textes différents : notre collègue C. Pignatelli collaborera sans doute à ce projet (la base de F. Martineau, comme on l'a dit, est déjà accessible sur le site d'Ottawa). Le nouvel ensemble de trois bases serait relationnel et ne se limiterait pas à une description morphologique du verbe, mais fournirait bien d'autres indications sur la syntaxe, la valence, les compétences sémantiques (acceptations / exclusions) et permettrait en même temps de prendre la mesure statistique de chaque phénomène. Un des préalables à ce travail, à Poitiers, est la constitution de l'index des verbes dans La Charrette, au moins dans l'un des manuscrits, ce qui recoupe le projet d'Index général. Mais dès l'instant où sera terminé l'index lemmatisé du texte critique, il ne serait pas impossible de coupler la lemmatisation du manuscrit C avec la mise en chantier de la base verbale du même manuscrit, dans la perspective d'une extension du site par l'adjonction d'un système de bases de données interrelationnel (cf. ci-dessous).

Tel est actuellement, et en bref, l'état du projet Charrette à Poitiers 11. Il ne s'agit, évidemment, que d'un début. Mais d'autres projets sont en cours, à Princeton et à Poitiers, ou sont prévus pour plus tard. Par exemple, une base des majuscules, une base des figures rhétorico-poétiques (Princeton : cf. MO n° 37) ; une base ou plusieurs bases thématiques (Poitiers).
La conclusion, pour répondre aux voeux des organisateurs de cette Journée, essaiera d'esquisser la philosophie qui inspire ces projets et mentionnera quelques-uns des problèmes que pose aux chercheurs l'utilisation d'Internet dans nos disciplines.

3. Perspectives et problèmes

Pour schématiser les orientations que peut suivre le développement du Projet Charrette, et plus particulièrement le développement du site de Poitiers, on distinguera par commodité textes, images, son (en raisonnant, par conséquent, dans le cadre d'un système multimédia).

· TEXTES
Plusieurs objectifs sont poursuivis et induisent l'organisation du travail :
- à partir des transcriptions en clair et en exploitant les transcriptions balisées à l'aide de logiciels spécifiques SGML (XML, etc.), étendre les recherches liées à l'écriture (de la codicologie à la graphie), en considérant que l'écriture est aussi une dimension de la pensée médiévale ; rendre ces recherches plus efficaces grâce à Internet, mettre à la disposition de la communauté scientifique des moyens de les réaliser (une équipe ne peut couvrir tous les domaines de recherche possibles et, idéalement, il serait souhaitable qu'un chercheur individuel trouve sur le site des ressources - données et logiciels - pour réaliser dans de meilleures conditions ses recherches personnelles) ;
- fournir, avec le vocabulaire lemmatisé des divers manuscrits, un point de départ polyvalent pour des recherches de toute nature, historiques, linguistiques, socio-linguistiques, littéraires, culturelles ; pour que les résultats de la lemmatisation ne constituent pas un univers clos il faut que l'index général soit articulé sur les autres ressources du site et, plus largement, sur toutes les ressources disponibles, à un moment donné, sur la Toile ;
- contribuer, chemin faisant, à des projets plus larges (avec Princeton et Ottawa et, par Ottawa, avec l'INaLF par ex.), comme le vocabulaire complet de Chrétien, la base des formes du français médiéval, le dictionnaire de l'ancien français ; ce qui implique une harmonisation minimale des procédures, de la pratique lexicographique, etc. ;
- élargir, grâce aux résultats de ces recherches, la part qui pourrait correspondre, sur le site ou sur la Toile, à l'apparat critique qu'on sera amené à redéfinir par rapport à un nouveau concept : celui d'édition critique numérique ; car l'étude détaillée de la langue et des manuscrits nous conduira à élaborer une nouvelle conception d'édition critique pour La Charrette et pour les autres archives analogues qui apparaîtront sur Internet ; le site évoluerait peu à peu en intégrant à ses ressources un système de bases de données multiples interconnectées et permettant de mettre en relation à tout instant l'ensemble des informations archivées et indexées ;
- enfin, et pour clore provisoirement une liste inépuisable, reconsidérer, par une étude comparative plus globale, la tradition manuscrite et la valorisation littéraire du roman, préciser (si faire se peut) les caractéristiques de la langue de Chrétien dans le contexte de la langue médiévale.

· IMAGES
Les objectifs - sans fixer de calendrier - pourraient être les suivants :
- pouvoir analyser, fragmenter, manipuler l'image comme du texte (ou presque), c'est-à-dire en extraire des portions, localiser les zones sombres par rapport aux zones claires, identifier des figures, des tracés, des ductus, des caractères ;
- aller vers une comparaison partiellement automatique entre transcription(s) et image, vers une transcription partiellement automatique (validée par le chercheur) ;
- coupler image et texte dans les bases de données, quel que soit le type d'interrogation - à partir d'un mot du texte (ou de l'index), à partir d'une séquence, à partir d'une métadonnée descriptive, à partir d'un schéma figuré - ; c'est la philosophie que s'efforce également de mettre en oeuvre l'équipe de Princeton ;
- prévoir l'insertion de documents en 3D dans l'apparat critique (ex. représentation des realia : codex, armes, châteaux, meubles, décor, etc.) ;
- introduire des documents animés : rotation d'objets 3D, séquences filmées...

· SON
- associer le texte à la voix, c'est-à-dire remonter, par la lecture, à l'oralité des textes ; les donner à entendre par une récitation éventuellement accompagnée, dans le cas de la poésie, par des chants ou des instruments ; la mise au point de telles restitutions susciterait inévitablement des recherches nouvelles sur la lecture médiévale, le spectacle, la vie culturelle, les dimensions sociale et idéologique de tout acte de (re)présentation ;
- dans un ordre d'idées un peu différent, essayer de redonner vie aux particularités dialectales par la diction (prosodie, timbre), ne serait-ce qu'à titre expérimental ou à des fins pédagogiques ; les recherches qui ont été évoquées dans le paragraphe précédent seraient à compléter par des enquêtes et une réflexion sur les aspects diatopiques, diastriques et diachroniques de la langue utilisée par les divers manuscrits ; qui parlait la « lengue françoise » (que Chrétien fait rimer avec « cortoise » aux v. 41-42, tandis que « cortois » rime deux fois avec « rois », v. 241-2 et 3965-6) ? ; que représentait par rapport au français courtois le français non courtois et, par rapport au français, les « langues » non françaises ?
L'ensemble de ces orientations repose, comme on l'a dit, sur une utilisation résolument multimédia d'Internet ; il invite à imaginer de nouvelles formes de travail (interdisciplinaires et collectives) et de nouvelles structures matérielles : ce que certains appellent le poste de philologie numérique interactif sur Internet.

Les implications et les problèmes sont multiples. On ne peut ici encore que les indiquer en schématisant :

- pour concevoir et mettre en place ces nouvelles modalités de la recherche, une politique suivie est nécessaire, à moyen terme au moins ; et ce, aussi bien au niveau des choix généraux de la politique des grands organismes de recherche qu'au niveau des équipes ; le suivi englobe à la fois une certaine continuité dans la définition des priorités et le maintien des moyens mis à la disposition des programmes ;

- des informaticiens doivent pouvoir travailler en permanence avec les autres spécialistes : faute de moyens et de continuité, le projet Philectre, l'un des plus prometteurs de ces dernières années, a dû s'arrêter ; la recherche de demain exigera de plus en plus de logiciels spécifiques et un couplage systématique entre document numérique et outil logiciel ; cette évidence n'est pas nouvelle : déjà en 1991 Charles Faulhaber, par exemple, avait insisté sur l'interrelation entre outils et données dans l'étude des textes au XXIe siècle 12 ;

- une réflexion et des recherches spécifiques sont indispensables sur l'articulation entre travail individuel et moyens mis à la disposition sur Internet, d'autant que les ressources sont le plus souvent hétérogènes ; deux aspects seraient à étudier :
(1) l'exploitation des ressources Internet par le chercheur dont la recherche ne correspond pas forcément à ce qui est proposé comme moyens par les sites Internet ; (
2) la participation des chercheurs à l'enrichissement d'un site quand ils n'appartiennent pas à l'équipe qui gère le site ; à cet égard on ne peut que souhaiter des rencontres régulières entre représentants des équipes qui travaillent dans ce domaine ;

- une réflexion également s'impose sur l'articulation entre les projets qui décrivent et indexent les documents (Digital Scripto-rium, projet MASTER, grandes bibliothèques), donc entre les bases de métadonnées et les projets de recherche sur les textes proprement dits ;

- enfin, une nouvelle attitude de la part des instances de tutelle et de la communauté scientifique en général est souhaitable en matière d'évaluation du « travail numérique » ; il arrive encore trop souvent que ce travail soit peu ou mal pris en compte pour la carrière et la promotion des chercheurs, quand il n'est pas tout simplement passé sous silence.
Sur un plan plus large se posent d'autres problèmes, souvent cités, mais qu'on ne saurait minimiser pour autant. Ils concernent :

- l'utilisation des ressources par les internautes et les droits liés à la propriété intellectuelle ; cette question a été abordée récemment dans le numéro 38 du Médiéviste et les sites juridiques de la Toile lui consacrent des pages de plus en plus nombreuses 13 ;

- la stabilisation périodique des sites afin de permettre une référenciation non ambiguë dans la littérature spécialisée ; le contenu d'un livre est stable, au moins entre deux éditions, et le renvoi aisé dans un article, un nouvel ouvrage ou une bibliographie ; les sites Internet évoluent sans cesse et même une référence qui porte la date de la consultation risque souvent, quelques mois après, d'être obsolète, donc inutile ;

- ce problème de la référenciation est directement lié à deux autres aspects techniques :
(1) la sauvegarde intégrale périodique des sites ;
(2) un archivage permettant de retrouver en ligne la version de référence utilisée dans un travail de recherche ; outre que les sites eux-mêmes n'assurent communément aucun archivage, les grandes bibliothèques n'ont pas encore adapté leurs structures et leurs habitudes à ce nouveau besoin, bien qu'elles y pensent de plus en plus 14.

Chacune de ces remarques pourrait faire l'objet de longs commentaires. Le but n'était pas ici de les analyser ni de leur chercher des solutions ; simplement de les mentionner, d'attirer sur elles l'attention, parce qu'elles expriment des préoccupations désormais quotidiennes pour tout chercheur qui considère Internet comme l'un de ses principaux outils de travail, surtout s'il entend y développer des projets comme le Projet Charrette qui implique une collaboration multiple entre bibliothèques, organismes de recherches, équipes, pays, chercheurs et un investissement considérable en temps (actuellement et dans la durée).

1 . Le manuscrit absent (I, Institut de France 6138) n'a conservé que quelques vers du texte.

2 . elles ont été d'abord réalisées sous la forme de diapositives de 35 mm, puis digitalisées à l'aide du programme photocad (de Kodak) ; ce travail de digitalisation a été effectué par une petite entreprise de Princeton. Les fichiers ont été ensuite comprimés en JPEG. Sur Internet les images sont fournies en format 1024 x 1536 pixels.

3 . L'équipe de Princeton a depuis cette époque revu la présentation de son site et lui a ajouté des moyens de recherche sur le lexique (il est possible, par exemple, d'obtenir des concordances sur les noms propres et sur certains mots figurant dans des listes thématiques). Elle devrait bientôt (courant 2001 ou début 2002) donner accès à de nouvelles bases de données permettant de nombreuses interrogations sur le vocabulaire, les textes, leur rhétorique, etc. (www.princeton.edu/~lancelot).

4 . J'ai soumis quelques propositions en ce sens au récent congrès Rencesvals (Poitiers, août 2001) ; la communication sera publiée dans les actes du congrès (fin 2001-début 2002).

5 . Pour des raisons de temps, le 13 octobre, il n'a pas été possible d'inclure dans la communication une présentation du site sur écran. Cette visite commentée a donc été remplacée par la brève synthèse qui figure ici dans la section 2.

6 . Adresse du L.F.A. : [http://www.uottawa.ca/academic/ arts/lfa].

7 . À l'heure où est mise en forme cette communication (mars 2001) le ms. C est entièrement accessible en transcription claire.

8 . La version en clair ne peut être utilisée telle quelle pour la constitution d'un index : elle comprend des éléments collés et des formes éclatées, des blancs après initiales de vers, etc. ; les noms propres commencent le plus souvent par une minuscule ; seul un pré-codage précis permet de les isoler des autres formes (cf. conventions exposées en introduction à l'index des noms propres sur le site). C'est pourquoi une mise en forme informatique est nécessaire. Cette troisième version reste très proche de la transcription « archéologique » dans la mesure où elle explicite par un signe toute intervention sur le texte (pour discriminer une forme, pour rapprocher ou séparer des éléments).

9 . Pour mieux apprécier les travaux en cours sur la Toile pour le français médiéval, voir l'article de P. Kunstmann, « Ancien et moyen français sur le Web : textes et bases de données », Revue de linguistique romane, t. 64, n. 253-254, 2000, p. 17-42.

10 . Directeurs de stage : Jacques Moureton et René Pellen. Base access, assurant comme les fichiers de l'archive un lien permanent entre les données issues du texte et les images des manuscrits.

11. Ou plutôt, tel était son état en octobre 2000, lors de la Journée sur la numérisation des manuscrits médiévaux. Quelques-unes des nouveautés seront signalées en note dans les paragraphes suivants.

12 . Charles B. Faulhaber, « Textual criticism in the 21th century », Romance Philology, n. 45, p. 123-148.

13 . Voir particulièrement :
[http://www.campus-electronique.tm.fr/Jurisite/index.htm], [http://www.wipla.com/] et
[http://www.jurisnet.org/sources/sourcesindex.html].

14 . La question a été évoquée, par exemple, à la Bibliothèque nationale au mois de juin 2000, lors de la 3e conférence internationale sur les bibliothèques numériques « Quels contenus pour les bibliothèques numériques ? ».

Previous Page Table Of ContentsNext Page
© CNRS - IRHT 2004 - Contacts - Infos légales - Rédaction