Le Médiéviste et l’ordinateur
Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies
n° 41 (Hiver 2002) : L’apport cognitif

Reconnaissance de formes, restitutions virtuelles d’objets :
réalisations et projets

Élisabeth Lalou

L’automatisation de la reconnaissance des formes et la restitution virtuelle d’objets est un sujet à la mode chez les chercheurs en sciences humaines. Plusieurs projets échus, en cours ou à leur début tournent autour de ce même sujet.

Le projet Debora [1], dont le financement européen s’est achevé à l’automne 2001, avait pour but, dans un premier temps de créer un outil informatique capable de reconnaître le schéma d’une page de livre imprimé du xvie siècle ce qui devait permettre à terme de reconnaître automatiquement des caractères d’imprimerie. Les réalisations sur la reconnaissance de la « structure » de la page sont très séduisantes, toutefois on reste un peu sur sa faim pour ce qui est véritablement de la reconnaissance des formes. Apprendre à la machine à reconnaître automatiquement à partir de pages de livres imprimés du xvie siècle numérisées les fontes de caractères utilisées permettrait des études fructueuses sur les premiers imprimeurs ; la reconnaissance s’effectuant jusqu’à présent à l’œil nu, très artisanalement. Des équipes de chercheurs sur les textes de la Renaissance, au CESR de Tours notamment, se proposent de donner une suite aux problématiques sur ce sujet [2].

La reconnaissance des formes dans des photographies statiques aussi bien que dans des bandes vidéo est appliquée assez largement par les médias. L’INRIA [3] a mené déjà plusieurs études pour la télévision permettant de reconnaître tel personnage politique au milieu d’une foule. L’indexation des films est ainsi abondée de façon automatisée. Cette méthode n’exclut pas l’indexation habituelle, par mots clefs [4]. Dans certains logiciels encore très expérimentaux utilisant le film vidéo [5], l’indexation des séquences s’opère à la fois avec ces reconnaissances de formes et avec la reconnaissance des sons ou des mots prononcés dans la bande son.

Dans des corpus d’images en grand nombre — chez les médiévistes, images numériques de pages de manuscrits contenant du texte manuscrit ou bien des enluminures — ce type de recherche de formes permettrait d’espérer une aide à l’indexation traditionnelle. Les mathématiciens spécialisés dans la reconnaissance du signal [6], tels les chercheurs de l’ENST, ont travaillé sur ces sujets depuis longtemps [7]. Après des études sur la reconnaissance des signes de l’écriture manuscrite, ils considèrent toutefois que la masse critique est trop discrète pour arriver à une efficacité suffisante. Ils sont plus positifs sur la reconnaissance des couleurs, où les perspectives sont plus encourageantes à leurs yeux.

Le sujet est en ce début d’année 2003 très en vogue. Il ne s’agit plus seulement d’une demande venant des chercheurs ou des conservateurs mais d’une demande liée à la mise en ligne de grands nombres de données. Les outils que beaucoup aimeraient pouvoir utiliser devraient aider à l’indexation automatique des données. Aussi des sociétés commerciales sont-elles en train de s’emparer du sujet. Lors du colloque de Lille (16-17 février 2003) consacré à la numérisation, l’INSA de Lyon a présenté une communication intitulée « La reconnaissance dans les images numérisées : OCR et transcription, reconnaissance des structures fonctionnelles et des méta-données » [8].

Une des applications de la reconnaissance des formes est l’étude des palimpsestes. Un projet européen vient de naître autour de cet objet [9]. L’article ici publié de Laurent Letellier qui travaille avec Michael Featherstone [10] montre un exemple de la reconnaissance des écritures effacées par la machine. La communication de M.-É. Boutroue et de Jean-Gabriel Lopez lors du colloque tenu à Paris en février 2002, en avant première du projet européen consacré aux Palimpsestes montrait des essais opérés sur quelques manuscrits palimpsestes de la bibliothèque Vaticane. La conclusion de ces deux derniers était que la machine pouvait aider à la reconnaissance de mots difficiles mais nullement permettre de faire un fac simile de manuscrit. Là encore, le sujet avait été bien défriché lors d’un colloque en 1981 [11] « Déchiffrer les écritures effacées ». Les essais opérés alors sur la reconnaissance d’écritures avaient donné des résultats relativement décevants. Bien sûr, on reconnaissait certains mots mais pour fabriquer par exemple, un fac similé reconstituant le codex inférieur recouvert par l’écriture plus tardive, il aurait fallu des moyens financiers tels que les opérations se sont arrêtées très vite. On peut penser que les machines ont fait des progrès depuis 20 ans. La suite du projet « Palimpsestes » nous le montrera peut-être mais pour le moment, la machine apporte une aide dans quelques cas véritablement critiques mais bien souvent le simple regard des yeux acérés du savant hélléniste ou musicologue est plus efficace que la machine qui n’est, après tout, qu’un robot.

La troisième approche du sujet consiste dans les restitutions d’objets disparus. Lire un palimpseste pour une machine peut aller jusqu’à la reconstitution de l’écriture. Ici même l’article d’Edoardo Ferrarini et Eugenio Saltari propose une réflexion sur la restitution virtuelle de pages écrites ou enluminées de manuscrits. Les Anglais de la British Library ont ainsi reconstitué le manuscrit brûlé de Beowulf [12]. Il s’agissait d’une opération de prestige national puisqu’il s’agit d’un des plus anciens textes anglais. Elle a été magnifiquement menée à bien et le site Web qui permet de prendre connaissance de toute l’opération est un modèle du genre. Plusieurs techniques (photographie numérique, reconnaissance automatique etc.) ont été utilisées pour la restauration de ce morceau inestimable de patrimoine très abîmé par l’incendie des manuscrits de la collection Cotton.

Lorsqu’il s’agit de reconstituer non plus des manuscrits à plat mais des objets archéologiques ou bien des éléments d’architecture, les machines apportent les possibilités de la 3D. La reconstitution virtuelle de la grande église de Cluny avait fait grand bruit il y a quelques années. Un chercheur avait également reconstitué la scène de la Passion de Lucerne, en trois dimensions [13]. Le laboratoire d’archéologie de Bordeaux [14] propose sur son site des restitutions d’architectures de l’Antiquité ainsi que des mottes médiévales [15]. Comme dans le cas des manuscrits, mais plus encore peut-être dans le cas des objets en 3D, se pose la question de la fiabilité de la reconstitution. L’imagination humaine n’a-t-elle pas ajouté au résultat obtenu des signes superfétatoires datables essentiellement du xxie siècle ? Cette question d’ailleurs ne concerne pas que les reconstitutions opérées à l’aide des machines. Toute reconstitution comprend des « bruits » anachroniques. Peut-être d’ailleurs n’est-ce là que l’une des définitions de l’histoire.

Dans l’aide à l’indexation ou la reconstitution d’objets disparus, la photographie numérique et les ordinateurs proposent des outils. Quelques réalisations ont abouti. Mais surtout dans les cas évoqués ici, il faut éviter de se laisser aller au plaisir presque enfantin du puzzle. Une fois le puzzle reconstitué, l’historien, le philologue peut commencer à travailler véritablement sur le nouvel objet. On peut évidemment, dans une démarche d’érudit humble et besogneux, se satisfaire de cet objet, arrêtant la définition de l’érudition à la constitution d’un insturment de travail, un instrument de travail flambant neuf pour ces architectures virtuelles ou ces codices retrouvant la vie après quinze siècles. Les véritables questions, le véritable travail de l’historien viennent après. Dans La Guerre des étoiles, c’est dommage de ne s’intéresser qu’aux trucages et à l’utilisation de l’image numérique et des reconstitutions virtuelles, qui ne sont que les outils pour raconter une histoire. Les ordinateurs — sauf peut-être Hal de 2001 de Kubrick — ne sont que des outils qui servent ensuite aux humains à raconter des histoires ou à faire l’histoire.



[1]. Voir le site: http://debora.enssib.fr. Le projet était piloté par l’ENSSIB et les partenaires comprenaient la Maison de l’Orient méditerranéen, la Bibliothèque de Lyon, ainsi que l’INSA de Lyon. L’INSA de Lyon avait aussi participé au projet BAMBI (1995-1997) (www.insa-lyon.fr/).

[2]. Le CESR et l’IRHT (section de l’humanisme) ont déposé ensemble un projet de recherche subventionné par la Région Centre sur « les bibliothèques virtuelles d’humanistes ». Les responsables sont Marie-Élisabeth Boutroue et Marie-Luce Demonet.

[3]. INRIA : http://www-sop.inria.fr/reves/Archeos/ et http://www.inria.fr/. Voir aussi les travaux de l’IRESTE sur Images et Vidéo Communication.

[4]. Sur celle-ci, voir le numéro de Document numérique, sur « l’Indexation », vol. 4, n° 1-2, 2000.

[5]Fontevraud, colloque pour le 900e anniversaire de Fontevraud.  Le virtuel et la pierre, patrimoine et multimédia. Nouveaux outils, nouvelles approches, nouveaux enjeux, 25-27 octobre 2001, Saumur, 2002. Logiciel expérimental en démonstration.

[6]. Voir aussi les travaux de l’IRISA (www.irisa.fr/imadoc/RA2000/) IMADOC : Interprétation et reconnaissance d’IMAges et de DOCuments » et du Loria (www.loria.fr) « READ : reconnaissance de l’Écriture et Analyse de Documents ».

[7]. ENST, École nationale supérieure des télécommunications. Voir les travaux de Colette Sirat dans les années 1970. L’écriture : le cerveau, l’œil et la main. Actes du colloque international du CNRS, Paris, Collège de France, 2-4 mai 1988, Colette Sirat, Jean Irigoin, Emmanuel Poulle éd.  Dans Bibliologia 10, 1990.

[8]. Hubert Emptoz, Franck Lebourgeois, Véronique Eglin, Yann Leydier du LIRIS/INSA de Lyon. La société Archimed travaille avec l’Insa sur le sujet.

[9]. Projet Palimpsestes. La restitution des textes cachés. Rinascimento virtuale. Digitale Palimpsestforschung. Journée d’ouverture du projet. Sorbonne, 22-23 février 2002. Voir programme en annexe.

[10]. Voir aussi dans Science et vie, juin 2002. un article sur cette opération.

[11]. Déchiffrer les écritures effacées. Actes de la table ronde édités par Lucie Fossier et Jean Irigoin, Paris, Les éditions du CNRS, 1990.

[12]. e-Beowulf : www.uky.edu/ArtsSciences/English/Beowulf/eBeowulf/. L’équipe du e-Beowulf a préparé une édition du texte, couplé avec des images numériques du manuscrit. Celui-ci est dans un piètre état car il appartenait à la collection Cotton qui a été détruite par le feu. Le Beowulf a été photographié en numérique, restauré électroniquement, indexé, encodé en sgml enfin édité.

[13]. Démonstration en avait été faite lors d’un des colloques de la Société internationale du théâtre médiéval dans les années 80.

[14]. Bordeaux, laboratoire de Robert Vergnieux, UMR 5707 Ausonius. Institut de recherche sur l’Antiquité et le Moyen Âge (IRAM), http://www-ausonius.montaigne.u-bordeaux.fr/progs.html. Robert Vergnieux, « La réalité virtuelle au cœur de la stratégie d’informatisation des données en archéologie » dans Les Nouvelles de l’archéologie, n° 76, 1999, p. 23-25.

[15]. Voir aussi les ouvrages de Hervé Mouillebouche, L’habitat fortifié dans les environs de Dijon du xe au xve siècle : cantons de Genlis, Gevrey-Chambertin, Saint-Jean de Losne et Sombernon, Dijon, 1987. Et surtout Les maisons fortes en Bourgogne du nord du xiiie au xvie siècle, Dijon, Ed. universitaires de Dijon, 2002, 488 p. et 2 CD-Rom (collection Sociétés – 664 sites décrits, avec les bases de données dans les CD-Rom, créés en 4D).


 

© CNRS - IRHT 2004 - Contacts - Infos légales - Rédaction