Le Médiéviste et l’ordinateur

Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies

n° 40 (Automne 2001) : La numérisation des manuscrits médiévaux

La question de la numérisation des manuscrits et des imprimés à l'IRHT : nouvelles technologies et programmes de recherche

Donatella Nebbiai et Marie-Élisabeth Boutroue
CNRS-IRHT

Le projet technique dont on trouvera une description rapide dans les pages qui suivent est né d'un projet scientifique d'étude systématique des cercles érudits au tournant du XVe et du XVIe siècle. Il s'agissait d'abord de rassembler, puis de synthétiser les informations dispersées que l'on pouvait trouver sur certains des plus grands noms de l'humanisme français, tant dans les fichiers de l'IRHT, qu'en puisant dans d'autres sources bibliographiques. L'idée, conjointement mise en place par la section de la codicologie et celle de l'humanisme, est de permettre le croisement des données et la mise en évidence d'une sorte de carte d'identité des humanistes, de leur cercle de relations à la fois professionnelles et personnelles ainsi que de leurs productions littéraires et philologiques qui s'avèrent marquées par ces relations. Dans le même temps, les sections d'humanisme et de codicologie cherchaient un outil global pour informatiser leur documentation, sans trouver sur le marché le produit « prêt-à-l'emploi » qui aurait pu correspondre au cahier des charges établi par les chercheurs. Il fallait donc concevoir un outil qui permette de répondre exactement aux impératifs de la recherche en rendant compte de la diversité des documents, suffisamment souple pour être adapté à tous les cas particuliers, suffisamment puissant et généraliste pour engranger tous les types de données envisagés. Le pivot central de cet outil est donc une base de données structurée avec le logiciel Access de Microsoft. On a complété cet outil central par un concordancier, un outil permettant d'indexer des images, un logiciel gratuit permettant la fabrication et la diffusion de livres électroniques via l'internet. À terme on envisage une publication partielle ou totale de la base de données via l'internet.
La base de données offre donc à ce jour des modules de consultation et d'entrée de données. Elle est nourrie par l'ensemble des chercheurs intéressés au projet et sert de lien entre plusieurs équipes rassemblées dans un réseau de recherche dont le but est l'étude des modalités de la transmission des textes par les humanistes. Ce réseau compte, outre les sections de l'IRHT concernées, douze équipes. Les modules retenus pour la structuration des informations concernent successivement les questions paléographiques (albums de mains d'humanistes, repérage de caractères, d'ensemble de caractères ou de ligatures présentant des particularités suffisantes), la bibliographie entendue au sens large (bibliographie critique et description d'ouvrages anciens). Dans ce second module, les sous-bases des imprimés modernes et des imprimés anciens sont renseignées à partir d'un module central. Le module consacré aux manuscrits permet la description et le repérage des témoins ; il adopte la norme internationale Master, mise au point dans le cadre d'un projet européen dont l'IRHTétait partenaire. Dans ce module une place importante est accordée aux marques d'appartenance (ex-libris et devises) dont la typologie reprenant souvent des modèles de l'humanisme italien renseigne sur la culture de ces savants. On a conservé aussi, chaque fois que cela était possible, les tables permettant le repérage dans Medium, base « maison » de gestion des microfilms de manuscrits conservés dans le laboratoire. Le module suivant est consacré aux portraits d'humanistes et vise, à terme, à constituer une banque de données iconographiques rassemblant des documents graphiques d'origines très diverses : peintures, gravures, sculptures, mais aussi frontispices d'éditions imprimées. Enfin le dernier des modules documentaires tient le compte des informations biographiques disponibles sur un auteur. L'ensemble de ces modules est complété par une bibliothèque virtuelle comportant à la fois des textes numérisés en mode image, et d'autres saisis ou téléchargés directement en mode texte. Ces textes peuvent être soit directement consultés en « feuilletant » le fichier, soit interrogés par le biais d'outils appropriés. Nous avons choisi pour faciliter la recherche lexicale, d'utiliser le concordancier Monoconc ¹ qui joint à une grande puissance de traitement des informations d'autres avantages. Il permet par exemple de paramétrer des égalités de caractères ou d'indiquer librement au moteur de recherche des caractères à ignorer dans les chaînes où on pourrait les rencontrer. Ces deux caractéristiques se sont avérées précieuses pour nous. La première permet par exemple d'indiqué au concordancier que, s'agissant de textes latins de sources très diverses, numérisées ou transcrits avec des critères orthographiques trop variables, la lettre u et la lettre v sont équivalentes ; de même pour i et j. La seconde de ces deux caractéristiques permet d'interroger de façon aisée un corpus épigraphique dans lequel les crochets carrés délimitent le début et la fin des restitutions. Il devient donc possible d'interroger indifféremment sur une chaîne de caractères attestée ou seulement restituée. Il va de soi que les crochets carrés sont maintenus lors de l'affichage des résultats.
. Logiciel développé par la société Athelstan.
En ce qui concerne l'indexation des images, le travail d'aménagement des textes est encore balbutiant. La solution la plus évidente consiste à construire un module supplémentaire dans la base, dans lequel chaque image serait indexée à l'aide d'une série de marqueurs obligatoires (page, chapitre, cote etc.) ou libres (par mots-clés dont le nombre peut être variable d'une page à l'autre). Pour des raisons de commodité, les images seraient alors intégrées dans un logiciel spécialisé tournant avec le même moteur que la base principale. L'inconvénient principal de ce système réside dans la lourdeur de la préparation nécessaire. Les pages doivent être indexées une à une, par quelqu'un qui lit le texte dans le détail et choisit les clés retenues pour l'indexation.

On aura compris que l'ensemble décrit dans les lignes qui précèdent relève du prototype et qu'il est encore l'objet d'assez nombreuses modifications. Quelles que soient celles qui seront adoptées dans les mois qui viennent, les équipes concernées tiennent à ce que soient préservées les quatre exigences fondamentales qui sont les leurs : souplesse et simplicité de la conception, parfaite adaptation aux programmes scientifiques, caractère évolutif du système, capacité de l'outil à restituer la totalité des informations disponibles sur un sujet, textes et images compris.

Base BUDE, accueil

Module de bibliothèque virtuelle

Module des profils d'humanistes

Module de description des manuscrits