La numérisation des textes médiévaux littéraires
Laure Cedelle-Joubert,
Direction du Livre et de la Lecture
laure.cedelle@culture.fr
La numérisation des textes médiévaux littéraires
1.Quelle numérisation pour les textes médiévaux ?
III. Les programmes français en cours
Les ressources textuelles se multiplient actuellement sur le Web, cette offre croissante concerne également les textes médiévaux littéraires. L'accès distant aux sources, l'enrichissement hypertexte, les recherches en plein texte offrent de nouvelles opportunités à la recherche. Les universités et les établissements de conservation des documents l'ont bien compris et de nouveaux programmes voient le jour.
Dans le cadre de cette journée d'étude nous auront l'occasion de découvrir plus en détail les problématiques et modalités de réalisation de trois projets français réalisés dans une université, aux AN et en BU. Je souhaiterais auparavant replacer ces initiatives dans l'ensemble de l'offre numérique.
1.Quelle numérisation pour les textes médiévaux ?
Les programmes de numérisation des sources médiévales relèvent des initiatives d'universitaires, de bibliothèques, de services d'archives, ou encore de particuliers. Il s'agit pour eux d'offrir un meilleur accès aux sources en proposant un document on line ou off line (du type CD-Rom) 1. Ces programmes revêtent une ampleur très variable allant de fragments de texte jusqu'à la constitution d'une véritable bibliothèque (ainsi à l'université de Chicago). Les réalisations demeurent pourtant tributaires des aspects techniques et juridiques.
·Les pratiques techniques
Mode image = fac-similé
- Avantages : potentialité de recherche en codicologie, paléographie. Accès distant à l'original avec possibilité de zoom. Facilité technique.
- Limites : image fixe à l'intérieur de laquelle aucune recherche avancée n'est possible à moins de combiner le mode image avec un accompagnement éditorial en mode texte. Poids des fichiers couleurs, lenteur du déchargement.
Mode texte = plein texte avec possibilité de recherche intelligente
- Avantages : recherche d'occurrences d'un mot, recherche intelligente lorsque l'on se trouve en présence d'un codage en xlm. Possibilités de créer de nombreux liens depuis le texte (notes, glossaire...). C'est un véritable travail d'édition avec toutes les difficultés que cela impose au niveau scientifique.
- Limites : complexité de la préparation et durée de l'opération. Gros investissement.
Le choix entre ces deux techniques est lourd de conséquence sur l'utilisation finale des ressources textuelles, il dépend également de la mission des organismes qui numérisent. Dans les universités, le mode texte trouve une certaine préférence du fait des multiples recherches sémantiques qu'il favorise. Les universitaires proposent des éditions de textes accompagnées d'un appareil critique plus ou moins développé. Les bibliothèques et les archives procèdent selon une démarche différente qui est celle de la communication des originaux ; ces établissements privilégient le mode image qui permet de préserver l'original en évitant une consultation trop fréquente.
·Les limites juridiques
Le choix des corpus numérisés dépend pour une large part des droits de reproduction et de diffusion qui reposent sur les documents numérisés. Les sources médiévales tombées dans le domaine public sont libres de droits, dès lors il est possible de numériser un manuscrit comme une édition de texte du XIXe siècle. En revanche si l'oeuvre est encore soumise à des droits d'auteur, la numérisation et la diffusion sont soumises à une autorisation des ayants droit. Cette autorisation peut donner lieu au paiement d'une redevance à la fois pour la reproduction et pour la diffusion. Cet état du droit explique ainsi que la BNF propose essentiellement sur son site Gallica des éditions du XIXe siècle. Ces aspects juridiques contraignent parfois à délaisser l'édition la plus fiable, trop récente, pour une édition plus ancienne mais un peu dépassée.
·Quels atouts pour la recherche ?
Malgré ces contraintes, la numérisation favorise de nouvelles méthodes de recherche :
- accessibilité à un corpus important à distance avec la possibilité de confronter les sources et les éditions entre elles ;
- recherche lexicale (ex : Chanson de Roland abu) ;
- accompagnement du texte par des glossaires, index, bibliographie, chronologie, illustration... ;
- dans le meilleur des cas manuscrit original en mode image accompagné de sa transcription et de sa traduction, avec possibilité de confronter l'original à l'édition. Sur un même écran. Ou encore affichage simultanément des différentes éditions.
Néanmoins les réalisations actuelles font apparaître quelques faiblesses. La fiabilité des sources n'est pas toujours facile à déterminer :
- références lacunaires des manuscrits ; ex : les vers ne sont pas numérotés (Bestiaire marial Univ. Ottawa) ;
- pas de renseignement sur la source et le contexte historique ;
- règles de transcription peu explicites (indication des éléments ajoutés ou restitués, modernisation des lettres...) ;
- la source manuscrite accompagne rarement l'édition ;
- pas toujours de comparaison entre les différentes éditions ;
- pas toujours de traduction en français moderne.
II. État des lieux
Que représente aujourd'hui l'offre numérique en textes médiévaux ? À partir du site Ménestrel j'ai essayé de mener une étude rapide des sources médiévales françaises numérisées.
Nombre : 105 textes répertoriés
Origine :
- 77 % des textes sont numérisés à l'étranger avec une majorité d'US 57 %, puis Canada et RU (8,5 % chacun)
- 23 % des textes numérisés en France
Typologie :
- théâtre (jeu, miracle, mystère, fabliaux) 50%
Les miracles à eux seuls représentent 42 % de l'ensemble
- Roman 29,5 %
Chrétien de Troyes à lui seul 10 % de l'ensemble
- Textes savants (commentaires, histoire, science...) 7,5 %
- Textes d'archives 8,5 %
- Chansons et poésie 4,5 %
Mode de diffusion :
- Accès libre Web 31 %
- Accès libre avec mot de passe et accès réservé 59 %
- Off line 9 %
Mode de consultation :
La grande majorité des textes proposés est en mode texte, il n'y a que la BNF qui propose des éditions en mode image. Très peu de sites offrent la possibilité de confronter l'édition en mode texte au manuscrit en mode image.
III. Les programmes français en cours
Les universités se spécialisent davantage dans l'édition électronique accompagnée d'un appareil critique. De nouveaux types de codage sont progressivement intégrés (xml). Les programmes de numérisation de l'éducation nationale (Frantext, Basile, Batelier) proposent de nombreux classiques de la littérature française parmi lesquels des textes médiévaux.
Les bibliothèques comme les archives préfèrent offrir un accès direct au document en proposant une reproduction numérique en mode image.
BNF 5 % de Gallica concerne le Moyen Âge.
On trouve de nombreuses éditions, principalement du XIXe siècle.
BU programme de la BU de Montpellier sur CD-rom
Base de données des manuscrits enluminés des BU (avec l'IRHT)
BM Base de données des manuscrits enluminés (avec l'IRHT) 2
Initiatives particulières de quelques BM : Besançon CD-Rom ; Valenciennes principaux textes dont la cantilène de Sainte Eulalie.
Dans le cadre du Plan de numérisation du Ministère de la Culture et de la Communication plusieurs établissements ont demandé la numérisation des manuscrits microfilmés par l'IRHT.
- Bibliothèque municipale d'Amiens : 350 manuscrits dont le fonds de l'abbaye de Corbie (textes et commentaires bibliques, psautiers, lectionnaires, graduels, antiphonaires, recueils de sermons, droit canon, auteurs médiévaux « classiques » : Pierre le Mangeur, St Thomas d'Aquin, Hugues de Saint Victor...).
- Plusieurs bibliothèques de Champagne Ardenne proposent au nouvel appel à projets du mcc [automne 2000] une sélection de leurs manuscrits dont un grand nombre provenant de l'abbaye de Clairvaux.
Ces manuscrits seront dans un premier temps consultables en intranet. Ceci pour un meilleur confort de lecture et la possibilité de ressources partagées. Dans un deuxième temps ils seront proposés sur le Web. Chaque manuscrit pourra être identifié grâce à sa notice. Le cas échéant un lien sera établi entre le texte et son illustration si celle-ci a fait l'objet d'une numérisation couleur.
1 . Ce rapport réfléchit essentiellement sur le on-line. Les énormes corpus de la Patrologie latine ou du CLCLT mettent en effet à disposition bon nombre de textes latins.
2 . Sur cette grande entreprise, voir E. Lalou, « Une base de données sur les manuscrits enluminés des bibliothèques. Collaboration entre chercheurs et bibliothécaires », dans Bulletin des bibliothèques de France, 2001, t. 46, n° 4, p. 38-42. En ligne : www.enssib.fr/bbf