Le Médiéviste et l’ordinateur

Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies

n° 41 (Hiver 2002) : L’apport cognitif

Les bases de données historiques À distance : une expérience

Jean-Philippe Genet
jen-philippe.genet@univ-paris1.fr
LAMOP (Paris I – CNRS) ^[1]

Les micro-ordinateurs ont considérablement facilité la création et la gestion des bases de données historiques. Même les historiens qui ne disposent pas d’une station de travail et d’Oracle peuvent, avec des produits courants et de prise en main relativement faciles ^[2], construire et gérer leur propre base de données ^[3]. La plupart possèdent, outre une interface graphique séduisante et d’emploi simple, un langage de commande de type SQL et des possibilités de programmation qui permettent le développement d’applications autonomes, offrant ainsi des possibilités étendues.

Néanmoins, il est aujourd’hui possible de construire des bases de données spécialement conçues pour être utilisées à partir d’Internet. Avant de se lancer aveuglément dans la construction de telles bases, il faut cependant s’interroger sur les avantages et les inconvénients d’une telle formule et je voudrais ici faire part d’une expérience, celle qui a pu être développée au Laboratoire de Médiévistique Occidentale de Paris (LAMOP) à Paris I, grâce à la compétence et au travail de Christine Ducourtieux et de Jean-Claude Bergès. Il s’agit de la base de données sur les auteurs actifs dans les domaines de l’histoire et du politique entre 1300 et 1600, base dont il sera question plus loin, et qui est désormais accessible en ligne sur le site du laboratoire. Une autre base prosopographique, concernant les seigneurs de Béthune et construite par Jean-François Cauche, est également accessible. Il est possible de se connecter directement au site ^[4], mais il est également possible d’y accéder via le portail des médiévistes français, Ménestrel.

Quel était notre objectif en mettant en accès direct la base de données sur les auteurs anglais ? Il était double. Il s’agissait d’abord de permettre la consultation sur Internet du dictionnaire prosopographique constitué pour servir de base à ma thèse de doctorat d’État qui, imprimé en corps 9, représente un ensemble d’environ 5 000 pages, difficile donc à publier comme livre imprimé en raison de son volume d’une part, et d’autre part en raison de sa rédaction même : les contraintes de codage en rendent en effet la lecture répétitive et donc fastidieuse ^[5]. Il s’agissait ensuite de permettre la lecture non linéaire du dictionnaire : rechercher la notice d’un individu à partir de son nom reste évidemment une possibilité, mais dans un dictionnaire qui concerne 2 220 individus dont la plupart ont une faible notoriété, une consultation par questions couplées paraît souhaitable. Par exemple, lorsque l’on souhaite entreprendre une recherche sur l’écriture de l’histoire par les « auteurs » de culture universitaire à la fin du xv^e siècle, il est plus rapide de poser directement la question que d’entreprendre la lecture séquentielle des 2 220 biographies en retenant, chaque fois que l’occasion s’en présente, l’un de ceux qui répondent au double critère de sélection (historiens de formation universitaire, et ce pendant la période spécifiée). Dans la version actuellement en ligne, une interface dite « simple » permet de croiser les champs « auteurs », « dates » et « titres des œuvres ». Une interface dite « expérimentale » permet des recherches combinant toutes les variables de la base de données : les questions peuvent ainsi porter sur les origines géographique et sociale, sur la formation scolaire et universitaire, sur la profession et sur la carrière, sur les voyages, sur les vicissitudes politiques ou religieuses etc.

Si ce double objectif ne paraît peut-être pas très ambitieux à première vue, il n’en suppose pas moins une série d’opérations qu’il est pratiquement impossible de réaliser avec un logiciel de bases de données. Tout d’abord, il suppose la possibilité d’obtenir des réponses synthétiques (du type liste ou tableau) à des questions complexes : dans la plupart des cas, le contenu des réponses doit être recherché dans plusieurs tables consultées (et donc ouvertes) simultanément. De même, la visualisation des notices du dictionnaire à partir de l’application en ligne exploite le potentiel typographique de ce nouveau support : les données proprement dites apparaissent en noir, et les commentaires scientifiques en gris. Surtout, le contenu lui-même vient d’un véritable dictionnaire, dont le texte est de taille extrêmement variable et de rédaction relativement libre et n’a donc pas dû être ajusté au lit de Procuste des champs « caractère » ou « alphanumérique » des logiciels de base de données. Or, une telle mise en relation est pratiquement impossible avec une base de données classique, d’autant que les champs « mémo » ne peuvent être utilisés à cette fin.

Au contraire, une base de données sur internet a l’immense avantage d’avoir un contenu unifié dans un même format, qui est le plus simple qui soit, à savoir le format texte (TXT) convertible en format HTML. Les logiciels utilisables seront par exemple PHP4, un langage de programmation permettant de rédiger des scripts qui est inclus dans les serveurs APACHE, et MySQL, un serveur de bases de données qui répond aux requêtes d’interrogation de la base qui lui sont envoyées. Il existe d’innombrables manuels pour ces logiciels, dont plusieurs sont déchargeables gratuitement à partir d’internet. La préparation du travail peut être faite facilement sur un PC, qu’il tourne sous LINUX ou sous WINDOWS, ou sur un Mac. Le seul véritable problème, en fait, est l’apprentissage de PHP4 et de MySQL : sans être d’une extrême complexité, il est long et doit être fait avec rigueur, car il faut non seulement dominer les subtilités des rapports serveur-client, avec toute la gestion des droits d’accès qu’elle implique, mais encore toute la syntaxe et le vocabulaire de logiciels qui n’ont pas d’interfaces graphiques mais exigent des rédactions précises. Et ce, d’autant qu’il faut se résoudre à écrire des pages et des pages de programme.

En un mot comme en cent, plus encore que du savoir-faire, le passage de la base sur PC à la base sur Internet exige du temps, encore du temps et toujours du temps, ce qui est précisément ce dont la plupart d’entre nous — à commencer par des doctorants qui doivent de plus en plus se conformer aux limites de durée imposées à la préparation des thèses de doctorat — manquent cruellement. D’où l’importance d’une formation adaptée aux besoins des utilisateurs historiens : c’est ici un problème général, celui de la formation informatique des historiens, mais rendu plus aigu par la rareté des compétences disponibles. Il est de ce point de vue particulièrement heureux que deux des enseignants d’histoire et d’informatique de Paris I, Emmanuel Bonin et Alain Dallo, aient décidé d’investir beaucoup de temps et d’efforts pour concevoir et donner une formation PHP4/MySQL sous LINUX depuis maintenant deux ans. Acquérir une formation grâce à des enseignants expérimentés ne permet sans doute pas de se dispenser en un clin d’oeil de la compétence d’un ingénieur comme Jean-Claude Bergès ou d’une spécialiste de la création et du développement des sites web comme Christine Ducourtieux ; cela permet néanmoins de comprendre ce qui se passe et donc d’adapter la base aux nouvelles possibilités qui s’offrent, et surtout d’espérer devenir indépendant de ces aides extérieures dans un avenir assez proche. Non d’ailleurs que ces aides soient mesurées : mais le nombre des adeptes des bases sur internet ne peut que croître, et les personnes compétentes vont donc devoir répartir leur assistance entre des utilisateurs plus nombreux. Au fond, le cheminement sera ici le même que celui que nous avons suivi pour les bases de données sur micro-ordinateur, et l’on peut parier — en sachant que dans ce domaine il n’y a aucune certitude — que d’ici trois ou quatre ans nous enseignerons dès la licence la création et la gestion des bases de données sur internet sous LINUX avec un PHP5, 6 ou 7 qui sera peut-être pourvu des interfaces graphiques qui réduiront le temps nécessaire aux longues lignes de commande aujourd’hui nécessaires.

Revenons en au problème du choix d’une base de données accessible via internet. Puisque ce progrès s’avère coûteux en temps, il faut donc, nous l’avons dit, avoir de bonnes raisons pour l’adopter. L’une de ces raisons, tout simplement, peut être la volonté de rendre accessible la base de données. J’ai souvent fait remarquer que la grande différence entre l’invention de l’imprimerie et celle de l’informatique du point de vue de la communication était — du moins pour le moment — le caractère non cumulatif des données informatisées par rapport à l’imprimé : alors que des livres s’accumulant sur une étagère donnent naissance à une bibliothèque, des bases de données numérisées non ou mal documentées, aux standards différents sont vite délaissées par ceux qui ne les ont pas conçues et bientôt oubliées ^[6].

L’accessibilité sur internet est une solution à ce problème en assurant la pérennité des données qui, de plus, peuvent être mises à jour régulièrement, et qui sont accessibles en plein texte. Elle assure aussi, dans une certaine mesure, la pérennité des méthodes utilisées. Surtout, elle permet de suivre la constitution de la chaîne du savoir en permettant au lecteur d’un livre ou d’un ouvrage scientifique de remonter à la métasource et de contrôler le processus de constitution des connaissances : chaque note en bas de page est ainsi susceptible de se transformer en une fenêtre où le lecteur en faisant défiler les données originelles, leurs mises en forme et leurs compléments ultérieurs peut reconstituer un parcours dans lequel il lui est loisible d’intervenir de manière critique à tout moment.

La possibilité de disposer de fichiers textes importants, non exploitables par les SGBD traditionnels, offre des perspectives entièrement nouvelles. Dans le cas de la base de données sur les auteurs actifs dans les domaines de l’histoire et du politique entre 1300 et 1600, il existait le dictionnaire contenant la totalité de l’information sous format texte, et deux bases de données reliées entre elles, l’une portant sur les auteurs (HP), l’autre sur les œuvres (OPUS), au format Dbase ou ACCESS. Les deux bases de données peuvent donc être utilisées, après avoir été enrichies, pour formuler les questions complexes et pointer sur le texte du dictionnaire contenant les informations demandées. Deux autres fichiers, « liste » permettant de repérer les noms des auteurs à partir des différentes graphies connues, et «label», permettant de documenter le contenu des variables dont le titre n’était pas immédiatement compréhensible, ont du être ajoutées et écrites spécialement. Ceci est la version qui doit être implémentée pendant l’automne 2002, et qui représentera une amélioration décisive par rapport à la version actuellement existante, le fichier OPUS en place aujourd’hui étant rudimentaire par rapport à celui qui sera alors mis en ligne. Beaucoup d’autres possibilités sont offertes par cette structure, notamment par le biais d’hyperliens avec les textes contenus dans la base de données textuelles MEDITEXT, qui contient plusieurs des quelques 13 300 textes référencés dans OPUS. A leur tour, ces textes, regroupés en une série de corpus cohérents, peuvent être reliés aux dictionnaires de formes ou de mots (en cas de lemmatisation) et aux concordances obtenus par l’intermédiaire du logiciel HYPERBASE, que nous utilisons généralement ^[7]. Enfin, ces dictionnaires et concordances peuvent être reliés aux analyses factorielles qu’ils ont permis de réaliser. Peu à peu, il sera ainsi possible d’évoluer, grâce aux capacités navigationnelles de l’internet, vers ce que l’on peut déjà appeler des systèmes d’information historique ^[8].

Bases de données accessibles à distance à partir d’internet ou bases de données autonomes et indépendantes sur PC ? L’historien doit-il dès maintenant se préparer à passer de l’un à l’autre ? Les deux formes vont-elles coexister en trouvant l’une et l’autre leur champ d’application spécifique ? La présente note, rappelons-le, n’est qu’une simple contribution, établie à partir d’une seule expérience, à ce débat. Mais, une fois de plus, l’évolution technologique est rapide, et il faut s’y adapter, sans savoir si cette évolution va se poursuivre, et si d’autres changements ne vont pas la rendre bientôt caduque. Un tel débat est donc nécessaire, et il devra être poursuivi systématiquement : pourquoi pas dans les colonnes du Médiéviste et l’Ordinateur ?

[1]. Je remercie Emmanuel Bonin, Alain Dallo et Giulio Romero de bien avoir voulu relire ce texte qui a également bénéficié des précises suggestions de Christine Ducourtieux.

[2]. Des exemples de bases de données construites et exploitées à l’aide de divers logiciels se trouvent dans J.-L. Pinol et A. Zysberg, Le Métier d’historien avec ordinateur, Paris, 1995 et, plus récemment, dans Jacques Cellier et Martine Cocaud, Traiter des données historiques. Méthodes statistiques / Techniques informatiques, Presses Universitaires de Rennes, Rennes, 2001 qui permet également de télécharger gratuitement un manuel d’utilisation d’ACCESS et d’EXCEL.

[3]. Par exemple, sous PC, Access, distribué dans l’ensemble Office de Microsoft, Dbase, FoxPro, Paradox, et sous Mac, FileMaker, FoxPro et 4D, pour ne citer que quelques logiciels parmi les plus répandus.

[4]. L’adresse est http://lamop.univ-paris1.fr.

[5]. Ceci n’empêche pas, d’ailleurs, d’envisager parallèlement une édition, à l’unité, du texte du dictionnaire, à partir d’un CD-Rom, dans un format PDF. Matteo Roccati a publié au LAMOP un premier « CD Rom-livre », consacré à la Josephina de Jean Gerson : le CD-Rom contient le texte et les tables de scansion des vers latins. Il suffit de le commander au laboratoire pour une somme des plus modiques.

[6]. J.-Ph. Genet, « Source, métasource, texte, histoire », dans Storia & Multimedia, Atti del Settimo Congresso Internazionale, Association for History and Computing, F. Bocchi et P. Denley (éd.), Bologna, 1994, p. 3-17.

[7]. HYPERBASE, développé par Étienne Brunet, est disponible auprès de l’université de Nice : tous les renseignements concernant le logiciel se trouvent sur le site Internet du logiciel.

[8]. J.-Ph. Genet et Giulio Romero Passerin d’Entrèves, « Des bases de données aux systèmes d'information historique », dans Congreso Internacional sobre sistemas de informacion historica, Ponencias y Mesas Redondas, 6, 7 y 8 de novembre de 1997, Palacio de Congresos de Europa, Vitoria-Gasteiz, Juntas Generales de Alava, 1998, p. 27-30.