Le Médiéviste et l’ordinateur
Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies
n° 39 (Hiver 2000) : La musicologie médiévale et l’ordinateur

Previous PageTable Of ContentsNext Page

Comptes-rendus

« Les Documents anciens », numéro spécial de Document numérique, vol. 3, nn. 1-2, juin 1999, [Paris, HERMES Science Publications,] 169 p. (Coordinateurs : Jacques André, Marie-Anne Chabin.)

Les dix articles qui sont publiés dans ce numéro présentent un bilan (non exhaustif) des recherches et des réflexions liées à la numérisation des documents anciens -par «ancien» il faut entendre ici « qui appartient au passé », mais ce passé peut être proche, même si la plupart des articles portent sur le Moyen Âge. Comme le précisent les coordinateurs dans leur Introduction, ces articles s'articulent autour de trois thèmes :
(1) «la numérisation des grandes collections nationales» ;
(2) la «philologie numérique» ;
(3) la «structuration de corpus de manuscrits» (p. 10).

C'est souligner à la fois l'ambition méthodologique du numéro et une étroite relation avec les entreprises de recherche en cours. Il s'agit, globalement, de dépasser l'état d'un hypertexte qui se réduirait, comme c'est souvent le cas, à la gestion de simples liens de référence ; dans un contexte de diffusion et de réexploitation il est souhaitable que la numérisation repose sur une relative stabilité des standards techniques et assure, en particulier lorsqu'il s'agit de l'image ou du son, une qualité de restitution qui permette de ne plus devoir recourir, en marche normale, au document original. À travers les divers témoignages on retrouve donc un certain nombre de principes ou d'objectifs communs : traiter en même temps le texte et son image (ses images), définir selon des normes claires les éléments d'analyse d'un document, et par conséquent structurer les métadonnées, rendre toujours possible la navigation entre les divers objets composant un dossier numérique. Ces objectifs suscitent deux axes de réflexion, l'un concernant les droits de reproduction et d'exploitation (qui rejoint les préoccupations des numéros 37 et 38 du Médiéviste), l'autre la réutilisation des systèmes élaborés (ou le suivi dans le couplage données-logiciels, tant il est vrai que la «nouvelle informatique» devrait garantir l'adaptabilité de systèmes qui intègrent désormais l'objet d'étude, sa description par métadonnées, les résultats des analyses déjà réalisées et l'ensemble des moyens cognitifs élaborés pour les informatiser).

La structuration du numéro reflète l'articulation thématique annoncée par les coordinateurs.

Les trois premières contributions se rattachent au thème (1) : elles portent respectivement sur «La numérisation dans les archives de France» (C. Dhérent), «La numérisation des manuscrits médiévaux à l'Institut de recherche et d'histoire des textes» (É. Lalou), «Archim : une banque d'images numériques pour le public du Centre historique des Archives nationales» (F. Clavaud). Autour du thème (2) se regroupent quatre articles à plusieurs égards convergeants : «Réflexions sur la représentation des documents anciens : le projet Philectre» (G. de Ventadert), «An Electronic Edition of Don Quixote for Humanities Scholars» (S.-C. Hu, R. Furuta, E. Urbina), «Pour un système de philologie numérique» (A. Bozzi), «Conception d'un poste d'édition et de lecture d'hypermédias littéraires» (É. Lecolinet, L. Robert). Enfin trois articles se penchent sur les problèmes de description et de normalisation (thème 3) : «Analyse historique de sources manuscrites : application de TEI à un corpus de lettres de rémission du XVIe siècle» (J.-D. Fekete), «Représentation et exploitation de métadonnées complexes : le cas des documents anciens» (F. Role), «Vers un standard européen de description des manuscrits : le projet Master» (L. Burnard, P. Robinson).

Chacun de ces articles mériterait un compte rendu. Pour abréger, on se contentera de présenter les grandes lignes de chaque thème de recherche et quelques réflexions suggérées par la mise en relation des divers apports.

Le thème 1 permet de faire le point sur les initiatives dues à deux institutions spécialisées : l'Institut de Recherche et d'Histoire des Textes et les Archives nationales. On soulignera le rôle pionnier joué dans ce domaine par l'IRHT, qui dans les années 1970 a commencé à réaliser sa base MEDIUM sur les manuscrits médiévaux, alors que la base ARCHIM ne date que de 1997. Mais leur inspiration et leur nature sont différentes : MEDIUM est une base de données sur les manuscrits, ARCHIM est une bibliothèque numérique associant images et description des documents, liée à l'émergence d'Internet. L'IRHT développe néanmoins d'autres projets qui se rapprochent D'ARCHIM : INITIALE, par exemple (depuis 1997 également !), base de données d'images numériques des enluminures de manuscrits (p. 33) ; les textes des manuscrits passeront bientôt du microfilm au support numérique (p. 37). Sur deux points les démarches des Archives et de l'IRHT se rejoignent, quelles que soient les modalités concrètes de réalisation : elles tendent à proposer au chercheur des images des documents et une description précise des documents. L'accès du texte en mode texte, retenu par l'IRHT pour un avenir encore un peu flou, ne semble pas pour le moment envisagé par les Archives. À ce niveau réapparaît la différence de vocation des deux organismes : le premier est orienté vers la recherche sur le texte lui-même, le second entend surtout permettre à son public de lire plus facilement les sources historiques dont il a besoin et assurer une meilleure conservation des documents fragiles. L'un et l'autre insistent sur l'ampleur de la tâche, le choix de priorités 1, l'accroissement des besoins en personnels qualifiés. Mais les perspectives sont très prometteuses : les chercheurs disposeront de plus en plus de possibilités pour identifier, localiser, utiliser les documents correspondant à leurs besoins ; des échanges sont prévus avec les Archives étrangères (p. 53) ; à terme, l'accès au texte en mode texte et l'analyse des images numériques accroîtront considé-rablement les moyens d'investigation et de connaissance... (une fois réglés les problè-mes de droits et de sécurisation de l'information, améliorés les débits d'Internet, etc.).

Le désir commun des articles du thème 2 est de mettre au point un prototype de poste de travail pour la philologie numérique. Le «poste» se référant, dans ce cas, beaucoup plus à une configuration logicielle qu'aux caractéristiques matérielles d'un équipement de recherche. Tous les projets s'efforcent de rendre dynamiques les relations entre objets numériques : images des documents (manuscrits médiévaux ou modernes), bases de données contenant les analyses des images (données graphiques), transcriptions, variantes, éventuelle édition. Pour passer à volonté d'un objet à l'autre, ou afficher en même temps divers contenus, plusieurs systèmes ont été conçus (éditeur THOT pour Philectre, MVED ou «Multi-Variant Contents Editor» pour Don Quichotte, logiciel spécifique pour PC/Windows'95 de 1997 issu du projet BAMBI 2. dans les expérimentations d'A. Bozzi). On retiendra en effet l'importance déterminante de la «boîte à outils» permettant de gérer des documents hétérogènes, l'attention accordée par les auteurs de ces projets à l'information graphique du manuscrit sous toutes ses formes (taches, traits, ratures...). Certaines opérations, si elles devenaient couramment accessibles, pourraient révolutionner le travail des spécialistes du texte : établissement automatique de la liste des variantes (p. 81), mise en correspondance automatique du texte et de son image graphique (p. 96), élaboration automatique de stemmas (p. 95). Encore conviendrait-il de repenser en fonction des nouveaux moyens d'investigation les conceptions de base des diverses traditions, comme celles de variante, de vocabulaire, d'image... Tous ces projets ne se situent pas de la même façon par rapport à l'actualité : Philectre a été conduit entre 1994 et 1997 ; les autres sont en cours et n'ont pas toujours abouti aux résultats qu'ils se sont fixés. Mais compte tenu de leurs affinités et de leurs convergences il serait souhaitable que leurs auteurs coordonnent leurs efforts et que les organismes qui soutiennent ou ont soutenu leurs recherches tentent également d'harmoniser leurs programmes (entre autres, le CNRS, l'Institut national des sciences appliquées de Lyon, l'Istituto di Linguistica Computazionale du C.N.R.-Pise, le Max-Planck Institut für europäische Rechsgeschichte de Francfort, le Center for the Study of Digital Libraries de l'Université du Texas).

Dans les contributions du thème 3 la préoccupation de fond est la structuration des données, que ces données soient du texte (lettres de rémission) ou des métadonnées (article de F. Role ou projet Master [Manuscript Access Through Standards for Electronic Records]). Partout une forme de normalisation est souhaitée, pour faciliter les échanges, la description, l'analyse, la manipulation en général et permettre la mise au point des procédures communes. Référence est ainsi faite à la T.E.I. [Text Encoding Initiative], à S.G.M.L. [Standard Generalized Markup Language] et X.M.L. [eXtensible Markup Language] 3. Une fois choisies ces références de départ, la première étape consiste à définir une D.T.D. [Définition de Type de Document], que l'on utilise ensuite de diverses manières. Le projet MASTER se situe encore en amont de la définition. Son but «est de créer un système générique, suffisamment souple et robuste pour permettre son application dans les différents domaines de la description du manuscrit» (p. 153). Projet européen récent (janvier 1999) dirigé par P. Robinson, il utilisera «à la fois XML et un logiciel de base de données relationnelle» (p. 157). Ses objectifs ne diffèrent pas, au fond, des objectifs définis dans le thème 1 et concernent tout autant les bibliothécaires que les chercheurs. Du reste, ce sont les bibliothèques associées au projet qui se sont chargées de tester la première version de la norme en procédant à des descriptions de manuscrit, les unes courtes, les autres longues. Aux États-Unis, les principaux partenaires de MASTER sont encore les bibliothèques impliquées dans les projets EAAMS [Electronic Access to Medieval Manuscripts] et Digital Scriptorium 4.

Les deux autres projets du thème 3 supposent qu'une DTD a été définie ; un travail peut alors être réalisé, soit de nature pratique (lettres de rémission), soit de nature plus théorique (représentation des métadonnées), orienté néanmoins dans les deux cas vers la création et la réutilisation de modèles. L'intérêt de la première expérience est de tester l'intérêt d'un balisage inspiré par la T.E.I. comme outil de recherche dans l'analyse de documents structurés ; mais, si les opérations et les enjeux sont assez bien décrits, les résultats ne sont pas communiqués. L'intérêt de la méthode imaginée par F. Role est de proposer une représentation des métadonnées sous la forme de structures de traits (chaque métadonnée est représentée par un couple Id-S où Id est l'identifiant et S désigne les structures des données ou traits), selon un formalisme expérimenté à la Bodléienne (p. 138), qui permet une comparaison des métadonnées, mais également des regroupements, des typages, et divers modes de consultation exploitant X.Q.L. [XML Query Language] (p. 147). Bien que F. Role assure se limiter au cas d'un chercheur isolé (p. 149), les procédures proposées paraissent plutôt lourdes pour un spécialiste du texte, qui a besoin d'innombrables métadonnées mais ne peut consacrer l'essentiel de son temps à l'élaboration de ces métadonnées selon le schéma indiqué ici. En fait, du reste, les exemples de l'auteur se rapportent aux données sur le manuscrit, non sur le texte, même si des textes apparaissent en filigrane dans les fenêtres reproduites pp. 146 et 148 5.

Peut-être conviendrait-il, d'une manière générale, de distinguer plus nettement les travaux qui peuvent être encore entrepris par un «chercheur isolé» et les projets qui imposent la collaboration de nombreux spécialistes, voire de nombreux organismes. Il ressortirait plutôt de ce numéro spécial qu'à l'âge du document numérique, et à l'époque de démarrage que nous traversons, l'apport de chacun ne peut être qu'une contribution à des projets qui, d'une façon ou d'une autre, mobilisent plusieurs disciplines (de l'archivage numérique à l'interprétation des textes). Peut-être que dans une étape ultérieure, de nouveaux modèles informatiques, comme le poste de philologie numérique auquel travaillent avec les philologues les spécialistes de l'information, de l'image, de l'informatique, des manuscrits, etc., doteront le chercheur de moyens autonomes aussi banals que le sont aujourd'hui un traitement de texte ou un tableur. Mais le contexte est désormais celui d'Internet et des hypermédias. C'est dans ce contexte que le numéro spécial de Document numérique a jugé à propos d'aborder les divers aspects de la numérisation des documents anciens. Aucun lecteur ne regrettera le temps qu'il y aura consacré 6.

René Pellen

1 . Les Archives ont créé en août 1999 un Comité stratégique chargé de définir les «données publiques essentielles» (p. 15).

2 . Sur BAMBI, voir l'ouvrage Better Access to Manuscripts and Browsing of Images. Aims and results of an European Research Project in the field of Digital Libraries. BAMBI Lib-3114, ed. by Andrea Bozzi, Bologne, CLUEB, 1997, 173 p. (Manuali & Anthologie).

3 . Site de la T.E.I. : http://www.tei-c.org
Site SGML : http://www.sil.org/sgml/sgml.html
Site XML.: http://www.ucc.ie/xml/
Sur le projet MASTER, voir
http://www.cta.dmu.ac.uk/projects/master/ ou http://www.hcu.ox.ac.uk/TEI/Master/Reference/

4 . Site du Digital Scriptorium :
http://sunsite.berkeley.edu/Scriptorium
Site de EAMMS : http://www.hmml.org/eamms/

5 On regrette que dans les légendes aucune mention ne soit faite de la provenance de ces illustrations, alors que le site de La Charrette est cité en bibliographie (mais on se demande à quoi il renvoie dans l'article).

6 Malgré la nature multimédia d'Internet et de la nouvelle informatique, la dimension sonore (sauf erreur) n'apparaît nulle part dans le numéro. Expression d'une conception purement écrite du texte, cette lacune présente l'inconvénient de ne pas intégrer aux recherches sur les textes tout ce qui relève virtuellement de l'oralité : prosodie, rythme, phrasé, accentuation, répétitions phono-sémantiques (rimes)...

Previous PageTable Of ContentsNext Page

© CNRS - IRHT 2004 - Contacts - Infos légales - Rédaction