Le Médiéviste et l’ordinateur
Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies
n° 41 (Hiver 2002) : L’apport cognitif

Text encoding of manuscripts :
Danish prayer books from the 16th century

Anne Mette Hansen
amethan@hum.ku.dk
Det Arnamagnaeanske Institut,
University of Copenhagen

Résumé abrégé du texte par É. Lalou [consulter l'article original en anglais]

Un autre article sur le même sujet a été prononcé à Sydney le 26-28 septembre 2001 au colloque « Digital Resources for Research in the Humanities ». Le texte complet en anglais (comprenant les exemples de codages, les fichiers xml et les reproductions) est en ligne à l’adresse suivante : <http://setis.library.usyd.edu.au/drrh2001/>.

L’encodage électronique des textes jette les bases d’un nouveau genre d’éditions de textes. L’encodage des textes signifie l’augmentation de l’information codicologique, il permet de mieux voir les variantes, les différents manuscrits et les autres sources primaires et il pose la question du concept traditionnel de texte et d’édition critique.

Les livres de prières danois ont été édités pour leur contenu textuel dans des éditions critiques historiques qui ne tiennent aucun compte de la nature des textes de prières et de la fonction sociale des livres. Une édition adéquate est une édition qui prend en compte la forme matérielle dans laquelle se trouve le texte et présente le livre de prière lui-même. Une édition moderne est une édition qui peut être utilisée par un public divers et répondant à des questions interdisciplinaires. Une nouvelle édition électronique réunit en une telle édition  un corpus textuel et linguistique. Les livres d’heures sont encodés avec le langage XML.

L’encodage des textes est une nouvelle approche philologique qui combine plusieurs disciplines : la critique littéraire (texte et mots dans leur contexte), la rhétorique (structure du texte, langue et versification), la linguistique (morphologie et syntaxe), critique textuelle (corrections et normalisation), paléographie (analyse de l’écriture), codicologie (mise en page et description de l’objet-manuscrit) et l’histoire de l’art.

L’encodage TEI / XML

L’encodage en XML fondé sur le schéma de la TEI décrit des documents structurés de manière à ce qu’ils soient interchangeables et il permet de combiner texte et méta-données, les transcriptions, la numérisation et la publication. Dans l’entête (header) XML du document, l’encodeur décrit les principes de son codage en même temps qu’il inclue la description de la source manuscrite. Le standard MASTER est une extension de la norme TEI permettant l’encodage d’un manuscrit d’une façon très fortement structurée. La DTD MASTER est une addition à la DTD TEI.

Un matériau aussi complexe que des livres de prières est difficile à encoder en XML car chaque partie du texte risque d’aller contre la hiérarchie du document XML. Si l’on veut rendre compte de la totalité du livre, dans toutes ses composantes, description codicologique, structure de l’ouvrage, vocabulaire et langue, des additions doivent être faites à la DTD prédéfinie.

Les principes de l’encodage

L’encodage  de base fournit une transcription diplomatique du texte ainsi qu’un marquage codicologique de la mise en page, un marquage de la structure textuelle de l’ouvrage et de la structure de chacune des prières.

1. Le type de transcription

Puisque des reproductions numériques fourniront une image des pages du manuscrit, une édition diplomatique (comportant tous les différents caractères et abréviations) n’est pas utile. Mais le texte n’en est pas moins reproduit très fidèlement.

Les caractères spéciaux « ae » et « ø » sont encodés par les numéros #230 et #248.

Les abréviations sont résolues en utilisant la balise <expan>. Des informations précises sont données sur les différents signes d’abréviation.

Les signes i et j sont transcrits i ; y et ÿ y, s long et s court s.

Les erreurs et omissions du scribe sont indiquées par des balises : <corr. sic= «  »> ou <sic>.

2. Les balises codicologiques

Les cahiers, pages et ruptures de lignes sont codés <qb/>, <pb/> et <lb/>.

La rubrication, initiales décorées ou colorées sont codés <hi rend= «  »>. Les différentes mains sont indiquées dans l’entête du document.

3. Les balises du contenu intellectuel

Les différentes parties du texte sont marquées par des balises déclinant <div> comme <div type="psalter">, <div type="prayer">, <div type="prayer in verse">, <div type="psalm">, <div type="litany">.

Un attribut « id »  identifie les divisions du texte et un attribut type donne les informations sur le type de prière dont il s’agit. Chaque prière est pourvue d’un titre. On peut ainsi rechercher les types de prières et les titres. Les structures de chacune des prières (rubrique, collecte, antiphon) sont marquées par des balises.

<div type="psalter" id="MJ20">

<div type="prayer" id="MJ20-2-14">

<head type="supplied">A prayer to the Virgin for the Visitation</head>

<div type="rubric"></div>

</div>

</div>

D’autres types rhétoriques (comme les tropes ou les figures) sont marqués par la balise <seg> (pour segment). Par ex. <seg type=  « trope »>.

Les citations <q> et titres d’ouvrages <title> sont marqués. Pour indiquer la langue, on utilise la balise <q lang = « LAT »>. Les noms de personnes sont identifiés et on leur met une clef attribut avec un code se référant à un fichier bibliographique des noms de personnes fabriqué à part.

(Pour l’exemple, se référer au texte anglais).

4. Les balises métriques

La version danoise de l’hymne « Stabat mater dolorosa » a fait l’objet  de beaucoup d’études par les chercheurs. Les strophes et les lignes de vers sont marqués avec les balises de groupes de lignes <lg n=1>. L’attribut « type » identifie le groupe de lignes comme une strophe. et les attributs « met » et « rhyme » identifient le mètre et la rime des strophes.

Conclusion

L’étape suivante de l’encodage devrait montrer comment le marquage du niveau normalisé et celui du niveau lemmatisé peuvent interagir. Le marquage décrit ici permet d’appréhender à la fois comme objet unique et individuel et comme appartenant à un corpus les manuscrits dans toutes leurs composantes : style et langue des prières, structure et programme textuel des textes, programme iconographique des peintures, relations entre les éléments décoratifs et le texte et finalement usage de ces livres.

[Consulter l'article original en anglais]

© CNRS - IRHT 2004 - Contacts - Infos légales - Rédaction