Le Médiéviste et l’ordinateur
Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies
n° 41 (Hiver 2002) : L’apport cognitif

XML ou SGBD :
les nouveaux logiciels participent-ils d’une révolution cognitive ?

Élisabeth Lalou

 

Des bases de données intéressant les médiévistes commencent à apparaître sur l’Internet. L’organisation des données mises en ligne s’opère avec de nouveaux outils encore en pleine émergence. Chacun s’accorde à reconnaître l’importance de l’indexation des données mises en ligne. Dans le cas des bases de données, l’apparition du XML qui fait suite au SGML aujourd’hui détrôné, incite à se poser des questions sur les conséquences cognitives de son utilisation.

La Bibliothèque virtuelle des manuscrits médiévaux gérée en XML[1]

Le rêve d’une Bibliothèque virtuelle des manuscrits médiévaux de France fait par l’IRHT avance à grands pas. Les deux bases d’enluminures qui diffusent des fragments d’INITIALE, base sur le manuscrit enluminé sont en ligne depuis octobre 2002 [2]. L’IRHT travaille à les enrichir : pour les images : numérisation rétrospective des dernières diapositives ou récupération d’images numérisées par d’autres ; pour le contenu scientifique, description et indexation accélérée des manuscrits et des enluminures. La numérisation des microfilms noir et blanc des manuscrits des Bibliothèques municipales [3] a commencé en 2002 et le processus devrait s’accélérer en 2003 et 2004, avec l’aide financière de la Mission de la recherche et de la Technologie du Ministère de la Culture. La base de données sur les reliures médiévales conçue par l’IRHT devrait rejoindre l’ensemble facilement. Le Catalogue général des manuscrits numérisé ensuite apportera les notices descriptives anciennes qui sont mises à jour dans la base Medium au fur et à mesure des campagnes. Ainsi via des portails, l’ensemble des manuscrits médiévaux de France deviendra accessible dans sa totalité, reproductions et indexation seront sur le Web [4]. Cet ensemble sera géré à partir de la fin d’année 2003 par un outil [5] conçu pour l’Internet et utilisant largement le XML. Le schéma (appelé « patron ») d’organisation des données est en cours de validation.

XML ou SGBD ?

Une prise de connaissance de l’intérêt du XML s’est faite à l’IRHT dans le cadre du projet européen MASTER [6]. Le groupe travaillait d’ailleurs alors encore sur SGML. Dans le cadre de Master, il s’agissait de définir une DTD (appelée aujourd’hui « Schéma ») décrivant le manuscrit médiéval. L’article de Anna Mette Hansen publié ci-dessous donne une idée des réalisations rendues possibles par cet outil.

Dans le cadre de Master, la question posée en titre de cet article a trouvé une réalisation concrète. En effet, une fois la DTD-Master définie, chacun des partenaires saisissait des descriptions de manuscrits pour tester le produit. Mais il n’avait pas échappé au coordinateur du projet, Peter Robinson, que les éditeurs SGML d’alors étaient loin d’être aboutis et qu’il paraîtrait difficile à de petites bibliothèques de se soumettre à l’apprentissage du XML avec des outils encore rudimentaires [7]. Le groupe a donc fabriqué deux outils : un éditeur XML doté de boites de dialogues et une base de données sous un logiciel du commerce, en clair Access. Un module de conversion des données d’Access en SGML fut même mis au point par l’informaticienne de l’IRHT. La comparaison entre les deux outils peut donc être faite in fine.

Les éditeurs XML ont progressé depuis janvier 1999, date de début du projet Master [8]. L’éditeur muni de boites de dialogues et lié à la DTD Master conçu par les informaticiens de De Montfort University à Leicester et ceux d’Oxford est d’une utilisation simple. Mais il est en anglais et il est apparu lors des différents ateliers qui ont marqué la dernière étape du projet que les conservateurs de langue anglaise maîtrisaient beaucoup plus facilement cet outil pour une simple question linguistique. L’outil dans l’absolu intègre tous les atouts du XML : prise en compte d’Unicode (donc possibilité d’utiliser des langues et des alphabets très divers), liberté extrême d’indexation grâce aux balises, possibilités d’entrer du « full text » à loisir (le XML n’oubliant pas ses origines d’outil destiné aux linguistes), etc. Après la saisie, les données peuvent être validées dans un « parser » mis en place dans le cadre de Master. Elles sont ensuite conçues pour rejoindre les bases en ligne fabriquées par Leicester et Oxford et qui utilisent XML. Chacun peut utiliser les outils déchargeables sur le site Master mais pour trier ensuite ses données, il devra soit recourir à Leicester ou Oxford soit concevoir sur nouveaux frais un module de mise en ligne.

Cette dernière étape est identique avec la base de données sous Access. Ce module, mis à disposition par l’IRHT comme les outils XML fabriqués dans le cadre du projet, permet de saisir des descriptions de manuscrits. L’architecture est calquée sur la DTD Master. Le rôle des balises est joué par des champs (répétitifs ou non, fournissant des listes d’autorité le cas échéant…). Il convient de mettre en valeur l’ingéniosité et l’intelligence de ce travail de calque en grandeur réelle qui fut réalisé par Muriel Gougerot. Les deux réalités sont en effet très différentes. L’espèce de liberté de saisie du XML n’a pas lieu dans un système de gestion de base de données tel qu’Access. L’utilisateur doit se couler dans les champs prédéfinis et ne peut guère se permettre d’invention. Les atouts viennent en conséquence : les données entrées dans cette base étaient beaucoup plus cohérentes lors de la mise en ligne, puisque le masque de saisie était plus contraignant. L’entrée des données était aussi plus « facile » à cause de la définition étroite des champs. Mais on ne pouvait pas y mettre tout ce que l’on voulait. Tout le détail qui fait l’intérêt d’une notice de manuscrit devait être laissé de côté alors qu’il pouvait être pris en compte dans XML.

Présent et avenir

XML est assurément l’outil d’avenir des bases de données en ligne, puisqu’il permet la diffusion sur l’Internet, le regroupement sans difficulté de bibliothèques virtuelles etc. Mais même si des éditeurs XML se multiplient sur le Web, peu d’outils (et notamment couplés de moteurs de recherche dignes de ce nom) sont disponibles et facilement utilisables [9].

Pour l’établissement de l’architecture des bases, les standards sont encore en émergence [10]. Le Ministère de la Culture propose gratuitement sur son site la plateforme SDX (en XML). Un module de bibliographie est développé avec BiblioML qui détrônerait même le format MARC ! Archives et bibliothèques vont privilégier la DTD EAD, moins fouillée que la DTD Master mais celle-ci s’appliquait uniquement au manuscrit médiéval. Je ne parle pas ici des standards émergents pour les images numériques, Dublin Core et autres iptc.

Bref qui veut utiliser XML, essuie encore les plâtres. L’utilisation d’outils traditionnels de SGBD est évidemment toujours possible et les données ne seront pas perdues puisque ces logiciels (Access, Filemaker ou autres 4D), pourvu que le chercheur cacochyme ou distrait ne reste pas attaché à la version 0.0, permettent la convertibilité des données. Il est même possible de concevoir une architecture grâce à un SGBD traditionnel avant de la convertir ensuite dans un schéma XML [11]. Mais le transfert des données d’anciennes bases vers des outils modernes n’est pas aussi simple qu’il pourrait paraître. Les Archives nationales faisaient ainsi état lors de la journée d’octobre 2002 de la difficulté rencontrée avec des bases de données qui devaient être restructurées avant transfert. Or il existe au Centre historique des Archives nationales, plus de 100 bases de données, vivantes en majorité mais très hétérogènes et peu documentées, certaines sur gros systèmes, une autre partie sur micros, beaucoup créées anciennement : le chantier aux Archives comme ailleurs, est donc énorme. Or, chacun — chercheur, conservateur de bibliothèque ou d’archives [12] — déplore de n’être pas aidé par un plus grand nombre de personnes. Mais il faut prendre conscience que pour mettre sur le Web toutes nos données les plus précieuses, en XML donc, nous ne sommes qu’une poignée de pionniers.

Une révolution ?

Qu’en est-il enfin de ce terme de révolution ? XML est un langage entièrement conçu pour le Web. Il partage donc avec celui-ci les idéaux de liberté et bon nombre d’outils permettant de l’utiliser sont en Open source. Cet état d’esprit n’était pas absent du groupe européen de Master. Mais une révolution cognitive ? Les outils XML permettent la mise en ligne de données en grand nombre, la large diffusion de ressources diverses et participent donc à la révolution numérique. Ce nouvel état des lieux modifiera-t-il notre pratique de médiévistes ? La réponse à cette question ne peut se trouver dans le seul regard sur XML.



[1]. Pour plus de détails sur l’ensemble de l’entreprise, voir É. Lalou, « La numérisation des manuscrits médiévaux à l’IRHT » dans Document numérique, vol. 3 n° 1-2, juin 1999. Les documents anciens, coord. Jacques André et Marie-Anne Chabin. É. Lalou, « Une base de données sur les manuscrits enluminés des bibliothèques. Collaboration entre chercheurs et bibliothécaires » dans Bulletin des bibliothèques de France, 2001, t. 46, n° 4. J. Dalarun et E. Lalou, « Numérisation et manuscrits médiévaux à l’IRHT », dans Actes du colloque Vers une nouvelle érudition : numérisation et recherche en histoire du livre. Rencontres Jacques Cartier, Lyon, décembre 1999, en ligne sur le site de l’enssib à Lyon :
http://histoire.enssib.fr/6archives/Colloques_journees/Nouvelle_erudition/dalarun.html

[2]. La responsable de la base INITIALE est Odile Lépinay, de la section des sources iconographiques de l’IRHT. Les deux bases filles de diffusion sont accessibles aux adresses : www.enluminures.culture.fr (enluminures des bibliothèques municipales, une vingtaine aujourd’hui) et http://liberfloridus.cines.fr (enluminures des bibliothèques universitaires, soit aujourd’hui la bibliothèque Sainte-Geneviève et la bibliothèque Mazarine).

[3]. Amiens et les bibliothèques de Champagne-Ardennes, Lyon et Nîmes planifiées en 2002.

[4]. Pour qui aime les chiffres : aujourd’hui 130 000 images d’enluminures numérisées, estimation de 200 000 existantes environ. 25 000 manuscrits médiévaux dans les BM et BU, donc à raison de 300 feuillets ou vues par microfilms, 7 500 000 vues (ou 75 km de films). 

[5]. Cet outil est le SIM de la société Archimed. L’IRHT et ingénieurs d’Archimed s’emploient à mettre au point la version 1.2 du SIM qui utilisera une base en sql pour gérer les données. Les bases INITIALE (géré sous Taurus classique de DCI) et MEDIUM (géré sous Oracle) y seront reversées courant 2003.

[6]. Site de MASTER : www.cta.dmu.ac.uk/projects/master/. Projet qui a duré de janvier 1999 à juillet 2001.

[7]. Parmi ces éditeurs sgml devenus XML, citons Xmetal ou emacs.

[8]. De nombreux éditeurs XML sont accessibles sur le Web. (XML Spy par exemple).

[9]. Dans l’ordre des outils documentaires permettant de gérer une base de données liée à des images numériques, le choix  jusqu’à l’an 2002 était assez réduit. L’IRHT a écumé alors les salons pour trouver l’oiseau rare : notre cahier des charges stipulait un système de base de donnée hiérarchique, pourvu de thesaurus et listes complexes et gérant parfaitement des images numériques avec les boîtes à outil permetttant toutes opérations sur l’image. Nous trouvions des logiciels de gestion de filmothèque assez en pointe (mais une image, une notice et tris indigents) ou bien des logiciels de SGBD traditionnels où l’image avait été rapportée parce que c’est ainsi qu’évoluait le marché. Notre choix s’est porté pour finir sur un outil encore en cours de développement mais conçu selon des concepts intégrant dès l’origine le Web et s’appuyant sur l’Internet.

[10]. Voir plus bas la rubrique « Informations » de ce présent numéro donnant le compte-rendu des dernières réunions sur le sujet.

[11]. C’est ce qui a été fait dans le cas du système d’information de l’IRHT.

[12]. Pour gérer l’ensemble de l’informatique du CHAN, le service informatique dispose par exemple de 9 personnes dont zéro développeur.


 

© CNRS - IRHT 2004 - Contacts - Infos légales - Rédaction