Le Médiéviste et l’ordinateur
Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies
n° 40 (Automne 2001) : La numérisation des manuscrits médiévaux
Previous PageTable Of ContentsNext Page

Conclusion

Jacques Pycke
écatholique de Louvain
Unité d'Histoire du Moyen Âge
pycke@mage.ucl.ac.be

1. La numérisation

2. L'indexation

3. Le CD-Rom

4. Internet

5. Conclusion : un problème de culture

La numérisation bouleverse nos habitudes de recherche et d'enseignement. Elle offre, en effet, des instruments de travail d'un type nouveau, qui nous permettent d'envisager des possibilités à peine imaginées il y a quelques années. Elle ouvre des perspectives dont se sont fait l'écho les 9 exposés 1 et les 3 rapports de ce jour, qui ont porté successivement sur le vaste domaine de la paléographie, sur les manuscrits dits improprement « littéraires » et sur les actes diplomatiques (originaux avec leurs sceaux et actes en copie dans les cartulaires).
Plutôt que de tenter un palmarès, par ailleurs délicat, qui conduirait en quelques minutes à préciser le propos exact de chacun et mettre en valeur quelques apports plus pertinents - voire quelques trouvailles savoureuses -, je me propose de dégager les problèmes les plus urgents que pose aujourd'hui, aux chercheurs et aux institutions, la numérisation des manuscrits médiévaux, et qui sont revenus comme un leitmotiv tout au long des exposés et des discussions.
En amont, la digitalisation de vastes corpus de données graphiques ou textuelles, qui deviendront autant de banques de données ; la reproduction de ces corpus sur papier, sur CD-Rom ou sur la toile ; l'indexation des données numérisées et, dès lors, la transformation de ces banques de données et bases de données interactives ; l'information qui doit faire connaître au monde scientifique l'existence de ces produits nouveaux.
En aval, la diffusion de ces banques de données ou de ces bases de données (l'exploitation à titre gratuit ou la commercialisation à titre onéreux) ; la crédibilité liée au mode de diffusion ou la garantie scientifique qui accompagne l'un ou l'autre des modes de diffusion ; les problèmes de droit d'auteur ; les problèmes liés à l'exploitation des bases de données ; l'aide des grands organismes publics ; le rôle des éditeurs privés ; pour les bibliothèques universitaires, les coûts souvent exorbitants des produits nouveaux ; l'incertitude face au futur, surtout avec la chute continue des valeurs technologiques depuis 9 mois ; le bouleversement des habitudes de travail, en ce compris la panique des étudiants et des chercheurs devant la masse gigantesque d'information contenue à la fois dans les produits imprimés, dans les CD-Rom et sur la toile, information souvent redondante.
Pour ne pas dépasser la demi-heure prévue au programme, je propose de nous en tenir à quatre opérations distinctes - la numérisation, l'indexation, le CD-Rom, la mise en réseau - que j'introduirai brièvement, en demandant aux rapporteurs des séances de prendre le relais pour lancer le débat.

1. La numérisation

Qu'il faille numériser le maximum de documents avec une bonne résolution apparaît aujourd'hui une évidence. La technique est au point et le marché compte d'excellents logiciels de numérisation par scannage et des logiciels de compactage fiables. On peut avancer qu'aujourd'hui, une bonne numérisation d'un document original en mode image permet d'obtenir un fac-similé du document d'origine.
Une fois le document numérisé, tout devient possible : la sauvegarde du document original, le rapprochement visuel de documents aujourd'hui épars, ainsi que la consultation d'un même document par plusieurs personnes.
La sauvegarde devrait concerner avant tout les documents les plus fragiles : estampes, textiles, manuscrits enluminés, actes diplomatiques scellés, cartes, etc. La consultation d'un même document par plusieurs personnes se fait via les serveurs des institutions scientifiques et des universités. Ces dernières disposent, de plus en plus souvent, de salles informatiques permettant à un auditoire d'étudiants de travailler sur le même document numérisé, grâce à un intranet universitaire. À ces avantages pédagogiques certains, on peut en ajouter d'autres qui concernent tout à la fois les expositions, les initiatives culturelles destinés au Troisième Âge, etc. Enfin, la numérisation comporte des avantages certains en cas de vol (repérage, diffusion) ou de destruction.

Un premier jeu de questions a examiné l'apport du numérique face à l'analogique.
· Des points positifs : le coût relativement faible de la numérisation d'une image ; le « choc esthétique » né de l'approche immédiate d'un document dans toute sa splendeur ; la maniabilité ; la fiabilité du produit (à condition que l'on ait numérisé l'original) ; la « capture » des images, permettant la constitution de dossiers personnels et donc la comparaison sérielle de documents épars ; la vérification d'éditions douteuses ; la sauvegarde des documents originaux ; la facilité de consultation ; l'amélioration de l'original par des nettoyages et des manipulations.
· Des limites : l'image est « morte » si elle n'est pas associée à une indexation ; les limites des OCR (logiciels de reconnaissance de caractères) ; les limites des mémoires, malgré les méthodes de compactage ; le coût en équipement ; des produits non satisfaisants lorsque la digitalisation s'est faite à partir d'une reproduction photographique analogique et parfois ancienne ; les frustrations nées de l'impossibilité de télécharger des documents (problèmes techniques ou implications financières) ; les contraintes de la couleur ; les contraintes de taille de certains documents (à moins de disposer d'écrans très larges).

2. L'indexation

Le document original, aussi bien reproduit soit-il, est un document inerte qui reste bien en deçà des apports successifs de générations d'érudits, qui l'ont identifié, lu, retranscrit, élucidé, reconstitué sur la base de copies, qui ont identifié les personnages, les lieux et les institutions, et l'ont utilisé pour toutes sortes de domaines de recherche : économique, institutionnel, religieux, littéraire, etc. Toutes ces données constituent une « valeur ajoutée » au document brut, qu'il convient de ne pas perdre et de retrouver rapidement grâce à la constitution d'un « fichier documentaire » annexé à chaque document. Par ailleurs, tout document original contient en lui-même un ensemble virtuellement très riche d'informations qu'il faut pouvoir utiliser. Voilà bien le double défi que l'indexation doit relever.
Apports successifs d'abord. Afin de ne rien perdre du savoir scientifique accumulé depuis Mabillon, il est indispensable de «  lier » les documents bruts (documents textuels et documents figurés) aux inventaires, aux catalogues, aux réserves photographiques, aux collections de fac-similés, bref, à toutes les ressources documentaires existantes ; une référenciation non ambiguë fournissant les garanties scientifiques indispensables. Cette indexation devrait rester ouverte, car tous les exposés du jour ont affiché le souci d'affiner plus encore les variables interrogeables.
L'indexation du contenu ensuite. On n'improvise pas une indexation : une réflexion en amont doit avoir en vue la finalité du produit. L'indexation parfaite n'existe pas parce qu'il n'y a pas de spécialiste universel qui serait capable d'indexer, à lui seul, un document dans toutes ses facettes : le chercheur est soit philologue, soit paléographe, soit historien, soit historien du droit, soit codicologue, soit historien de la transmission des textes...
Les documents textuels posent moins de problèmes car le mot est défini comme étant un ensemble de caractères allant du blanc au blanc ou du blanc à la ponctuation et, aujourd'hui, des logiciels de lemmatisation automatique existent et permettent diverses études lexicographiques et conceptuelles. Par contre, l'indexation du document figuré est en recherche. On peut rêver en imaginant la fragmentation « intelligente » d'une image qui autoriserait, à terme, des comparaisons quasi automatiques et donc la fabrication de corpus spécifiques. Plus tard, on rêvera même à la rotation de l'objet figuré...
Les organisateurs de la journée d'étude de ce jour pourraient consacrer une Table ronde à ce secteur capital : réunir les « propriétaires » des gisements de données [manuscrits, archives], des scientifiques représentant les universitaires, les chercheurs et les utilisateurs, des techniciens, ainsi que des représentants des pouvoirs publics (financiers). Leur tâche serait de dessiner l'architecture générale de ces fichiers documentaires (1. fiche d'identité ; 2. contenu) en vue de remplacer peu à peu l'adorable anarchie qui sévit dans ce domaine. Non seulement cela devrait permettre d'intégrer toutes les données existantes, mais elle devrait dès le point de départ être susceptible d'intégrer progressivement les données fournies par les utilisateurs.

La discussion porte notamment sur l'absence d'uniformité des thesaurus : chaque auteur de projet a mis au point son propre système de codage ; sur l'absence de cohérence de certaines banques de données.

3. Le CD-Rom

Le document numérisé et indexé peut être mis sur CD-Rom ou sur Intranet ou même sur Internet. Envisageons d'abord le cas du CD-Rom.
Il en est de légers, qui se contentent de quelques images, de quelques éditions de texte et qui peuvent bien sûr répondre, comme tels, à toute une série de besoins. Il y a des CD-Rom lourds, interactifs, c'est-à-dire des bases de données dotées de logiciels puissants, qui sont souvent la propriété des firmes privées. Ces CD-Rom sont généralement très chers ; ce qui peut se justifier si le produit est parfait et novateur. Aux acheteurs de se poser la question du rapport qualité-prix. On pourrait objecter que des firmes privées font payer très cher la seule mise au point des logiciels d'interrogation - adaptés, effectivement, par des firmes privées -, tout en faisant l'impasse sur le donné documentaire qui devrait normalement faire partie du domaine public.
L'avantage du CD-Rom par rapport aux produits mis sur Internet, c'est qu'à priori, le CD-Rom a exigé de son concepteur un effort intellectuel très important - au contraire de la plupart des produits mis sur Internet. On y trouve en principe toujours une architecture soignée et une organisation structurée du gisement textuel ou du gisement graphique.
Mais ce n'est pas parce qu'une banque de données a fait l'objet d'un CD-Rom que celui-ci doit nécessairement et automatiquement être commercialisé.
D'autre part, la création d'un CD-Rom n'affecte en rien la qualité du produit numérisé ; celui-ci pourra toujours être récupéré intact pour faire l'objet d'un autre CD-Rom ou d'une impression papier ou être versé sur Internet.

4. Internet

Internet : un mythe pour les médiévistes ? La recherche scientifique sur la toile reste, hélas, anecdotique par rapport au pourcentage grandissant de consultations à caractère commercial, ludique, informatif et même pornographique (800 000 consultations par jour !). Selon le dernier relevé des utilisateurs d'Internet aux Archives nationales, 6 % seulement des 40 % de consultants-chercheurs s'intéressent au Moyen Âge.
Lorsqu' Internet permet de diffuser des connaissances « moyennant carte de crédit », cela peut être considéré comme un regrettable retour en arrière : on paie pour « sa » recherche ; l'argent donné ne profite à personne d'autre. Jusqu'ici, au contraire de cet individualisme forcené, l'argent consacré à une acquisition d'ouvrage profitait à tous, pendant des générations.
Le problème majeur est d'ordre heuristique : on est en présence de pléthore et de non pertinence. Comment, dès lors, retrouver, dans cet amas d'in-formations (ce ne sont pas des documentalistes de formation qui ont indexé les documents pour les moteurs de recherche), une documentation de qualité scientifique et correctement référencée ? On oublie que, dans les bibliothèques classiques, les bibliothécaires faisaient le tri dans leurs achats, sur la base de recensions critiques. N'est-on pas occupé à évacuer un peu rapidement des systèmes qui ont fait leurs preuves ?

Lors de la discussion, des chercheurs relèvent la multiplicité des initiatives en tout genre qui fait, pour l'instant, désordre et ne donne pas une impression de sérieux ; le besoin urgent de guides (comme Ménestrel) pour aider les utilisateurs à faire leur choix parmi la masse d'information ; les modifications d'ordre épistémologique entraînées par l'impossibilité de référencer correctement des informations trouvées à tel moment précis dans une documentation en perpétuel état de « mise à jour » ; les problèmes d'harmonisation des logiciels dont les standards se rejoignent de plus en plus ; le partenariat entre les éditeurs privés et les institutions scientifiques, dont les produits mis sur le marché sont le résultat d'une convention. D'autres chercheurs soulignent également l'importance d'Internet pour faire connaître les nouvelles parutions aux institutions et aux particuliers via les forums de discussion.

5. Conclusion : un problème de culture

Dans le monde scientifique nord-américain, c'est très valorisant de publier sur la toile, en offrant un accès gratuit aux chercheurs. Les plus grandes universités s'y sont mises ; que l'on songe à l'université de Princeton et au projet de recherche « Charrette ». On ne peut oublier qu'il y a quelques semaines, le Premier Ministre Tony Blair est intervenu personnellement pour que les résultats du décryptage du génome humain soient mis gratuitement à la disposition des chercheurs du monde entier.
Ce n'est pas ici que je dois rappeler qu'en 1888, lorsque Jules Ferry a proposé, et imposé, un enseignement gratuit pour tous, il a provoqué indirectement une explosion logarithmique du savoir, qui a abouti notamment à... l'invention d'Internet.
Un siècle a passé et l'Europe risque d'être à la traîne si aujourd'hui les vastes gisements textuels et figurés qui constituent le patrimoine public des instituts de recherche, des dépôts d'archives et des bibliothèques ne sont pas rapidement mis sur réseau à titre gratuit, afin de renouveler la recherche en général, la recherche en Moyen Âge en particulier. Dans cet ordre d'idées, les institutions organisatrices de cette Journée d'étude pourraient influencer les pouvoirs publics à ne financer que les recherches qui garantissent contractuellement un accès gratuit des résultats à la communauté des chercheurs.

 

1. Jean Michaud a présenté lors de la journée d'études une communication sur les projets envisagés pour le traitement et la reconnaissance automatique des inscriptions médiévales sur le recensement desquelles travaille une équipe du CESCM Mais entre octobre 2000 et l'automne 2001, ces projets n'ont pu aboutir, faute de moyens informatiques. Il n'a donc pas désiré publier sa communication.

 

Previous Page Table Of ContentsNext Page
© CNRS - IRHT 2004 - Contacts - Infos légales - Rédaction