Le Médiéviste et l’ordinateur
Le Médiéviste et l’ordinateurHistoire médiévale, informatique et nouvelles technologies
n° 42 (Printemps 2003) : La diplomatique

Logiciels libres :
quels outils informatiques pour les diplomatistes ?

Jean-François Cauche
LAMOP - Menestrel
JeanFrCauche@aol.com

L’usage de l’informatique dans la diplomatique est depuis longtemps établi, ne serait-ce qu’à partir des premiers essais entamés par Lucie Fossier en 1975 lors de la table ronde du CNRS ayant pour thème Informatique et Histoire Médiévale. Pour bien présenter cette réflexion, il nous faut considérer le rapport entre informatique et diplomatique par l’usage premier de l’ordinateur dans son rapport aux données : édition, archivage, analyse, publication… par le biais des outils les plus courants que sont les traitements de textes, les tableurs et autres consorts. La recherche croissante et la démocratisation de l’outil informatique dans tous les domaines ont apporté des fonctionnalités de plus en plus performantes et diverses. L’évolution d’Internet ces dernières années a fait elle-même progresser la notion de logiciel libre, auparavant peu connue, hormis en grosse majorité dans le milieu des hackers [1] et des démo-makers [2], ainsi que dans certains milieux de la recherche.

Freewares, sharewares, logiciels libres, gratuiciels : définition et présentation

Mais, en définitive, qu’est-ce qu’un logiciel libre ? Cette notion préexistante dès le début des années 80 s’est aujourd’hui quelque peu compliquée et il convient de la redéfinir. Auparavant simple logiciel fait maison qui passait de main en main au gré des meetings informatiques ou échanges postaux, le logiciel libre a pris aujourd’hui une place de choix dans le monde informatique, malheureusement aux dépends de la simplicité d’antan. Cette notion est plus connue dans les pays anglophones, et c’est d’ailleurs sous cette première forme qu’elle s’est institutionnalisée, sous les termes de « shareware » et « freeware ». Le shareware est un logiciel semi-libre, c’est-à-dire que son utilisation est limitée à un certain nombre d’essais, à une période donnée, en général 30 jours, ou à quelques fonctions parmi les principales. Le paiement d’une licence et l’enregistrement auprès du producteur légal permet la libre et complète utilisation du logiciel. Le freeware s’est quant à lui diffusé dans les pays francophones sous la double appellation de « gratuiciel » et de « logiciel libre ». Un gratuiciel est le successeur de la notion originelle de freeware, c’est-à-dire un logiciel gratuit, sans aucune restriction ou condition de licence, et enfin à diffusion libre, mais soumis à la législation sur les droits d’auteur. Le logiciel libre reprend ces mêmes caractéristiques mais est accompagné de son code source, ce qui le rend modifiable par tout un chacun.

Des standards encore peu bousculés

La boîte à outils informatique de l’étudiant et du chercheur, en particulier dans le champ de la diplomatique, est bien souvent organisée autour des quatre logiciels phares que sont Word  ®, Excel ®, Access  ® et Hyperbase  ®. Si les deux premiers sont la plupart du temps directement implantés au sein du système Windows  ®, il n’en va pas de même pour les deux suivants. De plus, il est souvent utile de diversifier ses outils et on ne saurait s’astreindre à un tel diktat. Le but de cet article n’est pas, comme vous l’aurez compris, de faire dans l’exhaustivité, mais plutôt de vous proposer un panel d’alternatives grâce à des logiciels libres utiles à la diplomatique, ainsi que les moyens de découvrir d’autres logiciels au fil des recherches sur internet.

Logiciels libres & Internet, les réseaux d’échange

Hors d’Internet, point de salut ? Que nenni… Il existe aujourd’hui quelques revues qui proposent sur leur CD-Rom des logiciels libres. Les principales sont Freelog et Logiciels PC, ce dernier proposant contrairement à son prédécesseur plus de sharewares que de logiciels libres. De même, le choix des logiciels, bien que nombreux sur le CD-Rom, est très large, afin de plaire à un maximum de lecteurs. Nous ne pouvons donc compter que sur un coup de chance pour obtenir le logiciel désiré. L’idéal reste véritablement la recherche sur internet. De nombreux sites sont dédiés aux logiciels libres et sharewares. Le plus connu à ce jour est Télécharger.com [3]. On y trouve de nombreuses rubriques, où se côtoient des logiciels d’auteurs, mais aussi des logiciels libres et plug-ins [4] édités par de grandes sociétés informatiques, tout comme des démonstrations de logiciels récents. Ce site recense cependant beaucoup de sharewares et il n’est pas toujours aisé de trouver ce que l’on recherche en version libre. Dans un domaine exclusivement réservé aux logiciels libres, Framasoft [5], moins riche que Télécharger.com, possède de nombreux logiciels particulièrement performants. ZDNet.fr [6] propose quant à lui plus de 5000 logiciels accessibles par moteur de recherche ou par thème. Dans le domaine Linux, mais proposant aussi des logiciels pour Windows, il est possible de consulter les sites de l’AFUL (Association Francophone des Utilisateurs de Linux) [7] et l’APRIL (Association pour la Promotion et la Recherche en Informatique Libre) [8]. Ces deux associations ont pour but d’assurer la promotion, le développement, la recherche et la démocratisation de l’informatique libre, en particulier des systèmes d’exploitation [9], en accord avec la GNU General Public License (GPL) [10]. En l’absence de résultats avec ces derniers sites, il nous reste la solution des moteurs de recherche, où un minimum de rigueur est nécessaire pour obtenir des résultats tangibles. Il existe quatre moteurs particulièrement performants pour ce type de requête : Voilà [11], Exalead [12], All the Web [13] et enfin le célèbre Google [14]. L’idéal est pour chaque recherche de donner comme mots-clés le nom du logiciel ou de l’action recherchés, plus les termes de logiciel libre ou freeware. Le terme de gratuiciel est à prohiber pour l’instant, car encore trop peu utilisé au sein des sites. Il ne faut par contre pas hésiter à faire varier les termes, ni à les traduire en anglais.

Éditer, Publier & Archiver, des suites bureautiques aux logiciels indépendants

Dans le domaine des suites bureautiques libres, les développements actuels sont prometteurs. Cependant, au regard des besoins du diplomatiste dans une optique professionnelle et bien que l’offre se soit dernièrement étoffée, nous privilégierons la suite la plus connue : Star Office [15], distribuée tout d’abord sur les systèmes Linux puis sur Windows, par Sun Microsystems. Cette suite offre les mêmes services que le pack Microsoft Office et n’a rien à envier aux ténors que sont Word ®, Excel ® et Access ®. Le pack Star Office, actuellement disponible en version 5.2, comprend en effet le système Adabas permettant la création et l’organisation de base de données. Outre Adabas, Star Office 5.2 comprend un traitement de textes, un tableur, un utilitaire de DAO [16], un créateur de diagrammes… Elle peut aussi servir de navigateur Internet et aider à la création de pages HTML. La compatibilité avec les formats les plus courants est assurée, dont les fichiers Word ou Excel. La suite dispose en effet de nombreux filtres adaptés aux formats les plus connus. *

*   À l'époque où nous écrivions ces lignes, la suite Star Office était toujours au format freeware. Elle est depuis devenue un logiciel payant, d'une somme modique cependant, à partir de la version 6.0. La version 5.2 n'est plus disponible sur le site. Nous vous renvoyons donc à sa concurrente directe et elle libre, arrivée depuis peu dans le domaine des logiciels libres, la suite Open Office (http://www.openoffice.org).

 

Concernant l’édition de textes, une option intéressante peut être l’utilisation de ConTEXT [17] d’Eden Kirin. Cet éditeur de textes, disponible en de nombreuses langues, remplace avantageusement le bloc-notes de Windows et possède des fonctions de coloration syntaxiques, permettant d’utiliser à la base divers langages de programmation. Cette fonction étant facilement reprogrammable, il est possible d’adapter ConTEXT à n’importe quel type de coloration syntaxique et peut servir à repérer plus facilement des termes, des phrases dans des corpus de textes.

Bien que Star Office possède son moteur de base de données, il peut être nécessaire de programmer des interfaces de requêtes, des systèmes externes à la suite. La solution libre idéale à ce jour est constituée par l’ensemble de trois logiciels et langages : le serveur Apache [18] et les langages PHP [19] et MySQL [20]. La configuration de cet ensemble étant assez fastidieuse et peu accessible à un utilisateur débutant, des packs entièrement configurés sont diffusés sur Internet, le plus célèbre et certainement le plus simple d’accès étant EasyPHP [21]. Ce pack permet de créer et de gérer des bases à partir des données organisées auparavant sous Star Office-Adabas. Il est judicieux de consulter aussi les sites officiels du serveur et des langages précédemment évoqués. Ces derniers fournissent des documentations détaillées et des exemples nombreux facilitant la compréhension.

Toujours en complément d’une suite bureautique, Tee Chart Office [22] de David Berneda est un créateur de graphiques. De nombreuses formes sont disponibles et le logiciel convertit automatiquement sous forme graphique les données chiffrées insérées dans un tableau, particulièrement facile à compléter et à éditer. Les données sont visibles en 2 ou 3 dimensions. Les fonctions d’édition sont très complètes et tous les aspects du graphique peuvent être modifiés. Une image de fond est même insérable. Pour les plus avancés, un mode en ligne de commande est disponible. Le graphique peut alors être programmé aisément. Le mode d’exportation possède plusieurs formats dont le VML [23] et le HTML, permettant une exploitation au sein d’un navigateur internet.

Publier, des polices au service du diplomatiste

En matière d’édition et de publication, il est toujours intéressant de pouvoir se rapprocher au maximum du document, que ce soit par des photographies ou des schémas. L’utilisation de polices spécifiques peut permettre de présenter un cas typographique atypique, un caractère inconnu de la typographie actuelle, une partie de texte qu’il convient de conserver dans son aspect original, voire simplement d’améliorer la présentation et la compréhension d’un document. Les polices offertes dans les systèmes d’exploitation sont certes variées, mais peu adaptées à la diplomatique. Dans un premier temps, il peut être judicieux de consulter la page de Marc Smith [24] du site Ménestrel [25], qui nous offre une dizaine de polices typographiques médiévales pour la plupart d’usage libre. En cas d’insuffisance, la seule solution reste à créer soi-même sa police. Après de nombreuses recherches, il s’est avéré qu’il n’existait pas véritablement pour l’instant de logiciel libre permettant l’édition et la création de police. Cependant, le meilleur outil disponible à ce jour est un shareware du nom de Font Creator [26]. Une interface graphique permet de dessiner et positionner correctement chaque caractère de manière très simple. Un tutoriel est intégré au logiciel. Enfin, si l’on recherche des polices non médiévales mais variées et parfois techniques, le site FontoPlanet [27] est le mieux indiqué pour satisfaire à nos besoins.

Analyser, d’une aide à la lecture aux successeurs d’Hyperbase

Collatinus [28] 7.3 dans sa dernière version, logiciel d’Yves Ouvrard, axé vers l’analyse des textes en latin antique, peut servir de support lexical et morphologique lors de la lecture d’un texte latin et d’outil de recherches lexicales et stylistiques, voire lexicométriques. Les résultats sortent au format HTML directement accessible et modifiable dans le programme. Les fréquences lexicales sont calculées automatiquement et affichées par ordre. Enfin, Collatinus s’appuie sur un lexique de 10 000 entrées.

Praelector, successeur de Collatinus et disponible sur le même site, analyse les textes latins, les confronte avec sa base de données et tente d’en donner une traduction. L’intérêt de Praelector par rapport à Collatinus est le fait qu’il vérifie la cohérence de la traduction qu’il propose pour tel ou tel mot par rapport à l’ensemble de la phrase. Cependant, il faut garder à l’esprit que ce que Praelector propose n’est qu’une hypothèse. Ce logiciel ne constitue en rien un traducteur complet, mais beaucoup plus une aide à la lecture. 

Tablettes, autre création d’Yves Ouvrard, reste dans le même esprit que Collatinus et Praelector. Cependant, il ne propose pas de traduction directe, mais une aide mot à mot sous forme d’info-bulles donnant sens et morphologies des mots survolés. De plus, les liens syntaxiques possibles entre deux mots peuvent être évalués. Tablettes nécessite Collatinus pour fonctionner, le lexique utilisé étant identique.

Ces trois derniers logiciels proposent une initiative intéressante, mais sont encore pour l’instant d’un usage restreint pour les diplomatistes. Ils ne concernent en effet que le latin classique. Cependant, ces logiciels étant sous licence GNU – Open GL, il est possible d’en obtenir les codes sources et par la suite de modifier le lexique de manière à ce qu’il comprenne un vocabulaire beaucoup plus proche du latin médiéval. Cette architecture étant ouverte, on pourrait l’étendre par la création d’un autre lexique à l’ancien français, voire à divers patois locaux.

Dans le domaine de l’analyse de textes, TextStat [29] de Lionel Allorge peut offrir une relative alternative à un logiciel comme HyperBase. Il permet en effet d’analyser un texte et d’en faire ressortir diverses statistiques sur la forme et les mots. Il est possible de tenir compte des majuscules, des caractères accentués, ainsi que de la ponctuation, cette dernière étant éditable par l’utilisateur. TextStat nous permet même de définir une liste de mots à exclure du traitement, par exemple les articles ou autres termes revenant trop souvent. Sur un plan technique, TextStat se révèle aussi capable de traiter des documents aussi divers qu’un texte en français courant, un autre en latin médiéval ou un corpus de deux cents pages mêlant français courant et latin médiéval. Les résultats, tant sur la forme du document que sur les mots, apparaissent de manière très claire. Sur un plan pratique, il nous faut cependant soulever quelques limites à l’utilisation de TextStat. D’une part, le logiciel analyse l’ensemble des mots du texte. Il est impossible de focaliser son action sur un terme précis. D’autre part, le travail se faisant mot à mot, TextStat ne pourra rechercher des expressions complètes. Enfin, les résultats sortent de manière alphabétique mais ne donnent pas le ou les emplacements de chaque mot. Malgré ces restrictions, une telle analyse peut se révéler intéressante. On peut ainsi rechercher les occurrences de certains noms simples dans les textes, d’un prénom ou d’un nom propre. De plus, TextStat étant diffusé en Open Source, il est toujours possible de l’améliorer.

Koutosuiss [30], d’Eric Guichard, disponible sur Macintosh, est un logiciel de lexicographie, contenant plusieurs outils assez simples d’utilisation, efficaces et permettant de nombreuses actions : indexations, concordances, collages latéraux de fichiers, extractions de colonnes… Écrit en Perl, il permet tous les paramètres possibles relatifs aux mots, groupes de mots, à la ponctuation… Actuellement sept outils sont disponibles : dictionnaire (trie et compte les mots d’un fichier), charioteur (convertit la ponctuation), leitmotiv (dictionnaires des groupes de mots), grand et petit périboles (formes graphiques du texte), latéro-colleur (réorganise les identifiants), extracteur de colonnes. Le dictionnaire [31] est disponible et utilisable en ligne pour ceux qui ne disposeraient pas d’un Macintosh.

WinLox [32], outil de lexicographie programmé par Laurent Audibert, doctorant en informatique de l’Université de Provence, permet d’analyser des corpus de texte brut ou de format issu d’autres logiciels, comme celui généré par le logiciel Cordial de Synapse développement, et d’y rechercher des termes, des expressions et autres phénomènes linguistiques. WinLox, ainsi que son équivalent Ms-Dos DosLox, permet l’utilisation de lemmes. De même, les masques de requête offrent des options pouvant générer des phrases (pour une utilisation du style concordancier), des références (pour retrouver la correspondance dans le corpus), ou d’autres chaînes pouvant servir à un traitement automatique ou manuel par la suite. WinLox permet le découpage du corpus en sous-corpus traité indépendamment. De même, les étiquetages systématiques sont possibles. WinLoX fonctionne sous Windows 98, Windows millenium, Windows NT4.0 et Windows 2000 et se base sur une la librairie LoX, librairie développée en C++ par Laurent Audibert implémentant des classes de méta-expressions régulières destinée au développement d’application d’exploration et d’exploitation de corpus écrits.

LIKES (LInguistic and Knowledge Engineering Station) [33], développée par Rochdi Oueslati, est un outil d’étude des ensembles d’occurrences de mots. Il permet d’exécuter ou de simuler facilement des opérations sur ces ensembles. La version proposée actuellement sur Internet n’est qu’un prototype, mais permet déjà d’effectuer de nombreuses opérations en attendant l’édition finale. Au final, LIKES offrira une station de travail, possédant de nombreux outils d’ingénierie linguistique et permettant de traiter des corpus de plusieurs millions de mots (8 millions de mots et 8 000 textes). Une diffusion libre du logiciel final en milieu académique est prévue. Actuellement, le logiciel possède quatre fonctions principales : le calcul de segments répétés qui moyennant quelques réglages permet d’isoler des groupes de mots candidats à être les termes d’un domaine, la recherche de motifs par schémas morphosyntaxiques, la synthèse de schémas de relation, enfin un éditeur de concepts. L’utilisation conjointe des outils précédents permet une étude des distributions autour des verbes. L’utilisateur est aidé dans sa tâche de structuration des concepts en hiérarchie. Il dispose en outre d’un environnement qui lui permet de créer et de visualiser les concepts et la hiérarchie en cours de construction.

Quels projets pour l’avenir ? Quelles attentes de la part des diplomatistes ?

Les logiciels présentés précédemment permettent de se constituer une trousse à outils de base, pourvue cependant de fonctionnalités pointues grâce à des logiciels comme WinLox ou LIKES. Le principal moteur de la création des logiciels libres est le besoin personnel ou la demande. Ce domaine est régi tout comme en économie par le principe de l’offre et de la demande. C’est pourquoi beaucoup de logiciels ont un champ d’action généraliste, qu’il faut détourner de son usage primaire pour envisager des requêtes plus précises. C’est le cas de logiciel comme TextStat et Collatinus, dont le but premier n’était pas véritablement l’utilisation dans un cadre universitaire. Il serait donc très intéressant d’engager un réel débat entre la communauté scientifique et celle de l’informatique libre. Cela pourrait s’organiser par le biais d’une liste de discussion ou d’une réflexion commune lors des manifestations consacrées à l’informatique libre. Le débat est ouvert et nous espérons que ces engagements n’auront de cesse que d’évolue



[1]. Programmeurs-développeurs, promoteurs de l'informatique libre, souvent considéré à tort comme pirates.

[2]. Proche des milieux hackers, ces programmeurs s'ingénient à pousser au maximum les capacités de leurs machines par des présentations graphiques et musicales, appelées démos.

[3]http://www.telecharger.com/

[4]. Complément apportant de nouvelles fonctions à certains logiciels.

[5]http://www.framasoft.net/

[6]http://logitheque.zdnet.fr/logi/

[7]http://www.aful.org/

[8]http://www.april.org/

[9]. Linux, Beos...

[10]. L'éthique du logiciel libre. Pour plus d'informations, voir à ces adresses :
http://www.gnu.org/copyleft/gpl.html ;
http://www.gnu.org/home.fr.html

[11]http://www.voila.fr/

[12]http://www.exalead.fr/cgi/exalead/

[13]http://www.alltheweb.com/

[14]http://www.google.com/

[15]http://www.sun.com/

[16]. Dessin Assisté par Ordinateur.

[17]http://www.fixedsys.com/context/

[18]. http://www.apache.org/

[19]http://www.php.net/

[20]http://www.mysql.com/

[21]http://www.easyphp.org/

[22]http://www.steema.com/

[23]. Format proche du langage XML.

[24]http://www.ccr.jussieu.fr/urfist/menestrel/paleo/paleo-10polices.htm

[25]http://www.ccr.jussieu.fr/urfist/mediev.htm

[26]http://www.high-logic.com/

[27]http://www.freegaia.com/fontoplanet/index.php

[28]http://www.collatinus.com/

[29]http://www.lunerouge.com/gnu/textstat_f.htm

[30]ftp://barthes.ens.fr/pub/KT/Koutosuiss-1.2.sea.hqx

[31]http://barthes.ens.fr/KT/

[32]http://laurent.audibert.free.fr/lox.htm

[33]http://www-ensais.u-strasbg.fr/liia/likes/likes.htm

© CNRS - IRHT 2004 - Contacts - Infos légales - Rédaction