La question de la numérisation des manuscrits et des imprimés à l'IRHT : nouvelles technologies et programmes de recherche
Donatella Nebbiai et Marie-Élisabeth Boutroue
CNRS-IRHT
La base de données offre donc à ce jour des modules de consultation et d'entrée de données. Elle est nourrie par l'ensemble des chercheurs intéressés au projet et sert de lien entre plusieurs équipes rassemblées dans un réseau de recherche dont le but est l'étude des modalités de la transmission des textes par les humanistes. Ce réseau compte, outre les sections de l'IRHT concernées, douze équipes. Les modules retenus pour la structuration des informations concernent successivement les questions paléographiques (albums de mains d'humanistes, repérage de caractères, d'ensemble de caractères ou de ligatures présentant des particularités suffisantes), la bibliographie entendue au sens large (bibliographie critique et description d'ouvrages anciens). Dans ce second module, les sous-bases des imprimés modernes et des imprimés anciens sont renseignées à partir d'un module central. Le module consacré aux manuscrits permet la description et le repérage des témoins ; il adopte la norme internationale Master, mise au point dans le cadre d'un projet européen dont l'IRHTétait partenaire. Dans ce module une place importante est accordée aux marques d'appartenance (ex-libris et devises) dont la typologie reprenant souvent des modèles de l'humanisme italien renseigne sur la culture de ces savants. On a conservé aussi, chaque fois que cela était possible, les tables permettant le repérage dans Medium, base « maison » de gestion des microfilms de manuscrits conservés dans le laboratoire. Le module suivant est consacré aux portraits d'humanistes et vise, à terme, à constituer une banque de données iconographiques rassemblant des documents graphiques d'origines très diverses : peintures, gravures, sculptures, mais aussi frontispices d'éditions imprimées. Enfin le dernier des modules documentaires tient le compte des informations biographiques disponibles sur un auteur. L'ensemble de ces modules est complété par une bibliothèque virtuelle comportant à la fois des textes numérisés en mode image, et d'autres saisis ou téléchargés directement en mode texte. Ces textes peuvent être soit directement consultés en « feuilletant » le fichier, soit interrogés par le biais d'outils appropriés. Nous avons choisi pour faciliter la recherche lexicale, d'utiliser le concordancier Monoconc 1 qui joint à une grande puissance de traitement des informations d'autres avantages. Il permet par exemple de paramétrer des égalités de caractères ou d'indiquer librement au moteur de recherche des caractères à ignorer dans les chaînes où on pourrait les rencontrer. Ces deux caractéristiques se sont avérées précieuses pour nous. La première permet par exemple d'indiqué au concordancier que, s'agissant de textes latins de sources très diverses, numérisées ou transcrits avec des critères orthographiques trop variables, la lettre u et la lettre v sont équivalentes ; de même pour i et j. La seconde de ces deux caractéristiques permet d'interroger de façon aisée un corpus épigraphique dans lequel les crochets carrés délimitent le début et la fin des restitutions. Il devient donc possible d'interroger indifféremment sur une chaîne de caractères attestée ou seulement restituée. Il va de soi que les crochets carrés sont maintenus lors de l'affichage des résultats.
. Logiciel développé par la société Athelstan.
En ce qui concerne l'indexation des images, le travail d'aménagement des textes est encore balbutiant. La solution la plus évidente consiste à construire un module supplémentaire dans la base, dans lequel chaque image serait indexée à l'aide d'une série de marqueurs obligatoires (page, chapitre, cote etc.) ou libres (par mots-clés dont le nombre peut être variable d'une page à l'autre). Pour des raisons de commodité, les images seraient alors intégrées dans un logiciel spécialisé tournant avec le même moteur que la base principale. L'inconvénient principal de ce système réside dans la lourdeur de la préparation nécessaire. Les pages doivent être indexées une à une, par quelqu'un qui lit le texte dans le détail et choisit les clés retenues pour l'indexation.
On aura compris que l'ensemble décrit dans les lignes qui précèdent relève du prototype et qu'il est encore l'objet d'assez nombreuses modifications. Quelles que soient celles qui seront adoptées dans les mois qui viennent, les équipes concernées tiennent à ce que soient préservées les quatre exigences fondamentales qui sont les leurs : souplesse et simplicité de la conception, parfaite adaptation aux programmes scientifiques, caractère évolutif du système, capacité de l'outil à restituer la totalité des informations disponibles sur un sujet, textes et images compris.
Base BUDE, accueil
Module de bibliothèque virtuelle
Module des profils d'humanistes
Module de description des manuscrits