EMAN

EMAN (Édition de Manuscrits et d'Archives Numériques)


EMAN et l’encodage des formules mathématiques

EMAN, acronyme de Édition de Manuscrits et Archives Numériques, est une plateforme d’édition de documents numériques ou numérisés. Les projets hébergés par la plateforme traitent des thématiques les plus variées, parmi lesquelles nous citons, à titre d’exemple, la correspondance, les écritures au féminin, le théâtre, l’opéra, la philosophie de la Grèce ancienne, la musique, les sciences. Parmi les projets qui travaillent sur des corpus scientifiques, nous retrouvons un certain nombre de projets d’édition de corpus mathématiques. Or, comme on peut bien l’imaginer, l’édition de textes littéraires et celle de textes mathématiques comportent des enjeux et des spécificités bien distincts. À ce titre, l’expérience de l’équipe technique d’EMAN, ainsi que de ses collaboratrices et collaborateurs, au sujet de l’encodage de formules mathématiques en langage XML-TEI nous semble être un exemple paradigmatique qui bien illustre la difficulté de plier un outil conçu pour l’édition de textes littéraires (la TEI) aux exigences de transcription de corpus riches de formules mathématiques.

Au départ, la volonté qui a animé l’équipe EMAN était celle de proposer une transcription de ces différents textes à l'aide de l'outil Transcript, qui est disponible sur la plateforme EMAN. Grâce à ce module, les éditrices et éditeurs de projets EMAN peuvent facilement encoder des textes en XML-TEI, tout en ayant, à côté de la transcription, l'image source et en bas de page une visualisation de celle-ci en HTML. La transcription de textes scientifiques avec des mathématiques dedans ne comporte guère de différences avec les textes littéraires. Toutefois, les éléments mathématiques (c’est à dire les équations, les graphiques ou encore les tableaux) présents dans les textes ne peuvent pas être encodés en XML-TEI, mais doivent être encodés soit en MathML, soit en LaTeX. Pour ses projets, EMAN a choisi d’utiliser le langage LaTeX, car ce dernier est d’usage courant au sein de la communauté de chercheuses et chercheurs en mathématiques, et présente en plus l’avantage d’un balisage relativement simple des formules mathématiques en comparaison avec MathML.

Malheureusement, l’expérience montre que le mélange des langages XML-TEI et LaTeX dans une même transcription peut provoquer plusieurs problèmes d’affichage. Ces derniers sont dus à MathJax, qui est une bibliothèque JavaScript utilisée par EMAN afin de permettre la visualisation des équations encodées en LaTeX sur une page HTML. En effet, lorsque des balises XML-TEI sont insérées à l'intérieur d'un balisage LaTeX (mais cela vaudrait aussi pour MathML), MathJax n'arrive pas à en proposer une visualisation car il ne travaille que sur du LaTeX. Cela pose ainsi des problèmes lorsque l'on souhaite signaler des ratures, des notes, ou d’autres indications éditoriales concernant des formules mathématiques et qu'on veut les comparer ou les cumuler avec le même balisage dans le texte « standard ».

À ce stade, nous ne sommes pas en mesure de donner une réponse satisfaisante à cette question. Cependant, nos recherches toujours en cours nous ont permis d’isoler une série de problématiques de compatibilité du XML-TEI avec LaTeX, et d’ouvrir des pistes d’analyse pour une possible résolution de ces points.  

Nos recherches visent à trouver un terrain commun pour que le langage XML, qui permet une grande précision d’encodage, et les spécificités du langage LaTeX, nécessaire pour les formules mathématiques, puissent être complémentaires, offrant ainsi des solutions pour l'encodage, la visualisation et l'exploitation des textes mathématiques.  

Pour notre plan d'action, plusieurs scénarios seraient susceptibles d’intéresser les projets d’édition de textes mathématiques sur la plateforme EMAN :

1. On associe à la transcription en XML-TEI un document LaTeX qui fera office de visualisation. On effectuera ainsi deux encodages, un dit de recherche et un spécifiquement conçu pour la visualisation, chacun suivant des règles différentes ;

2. On prépare un package LaTeX pour les mathématiques, sur le modèle de ce que le projet Ekdosis a fait pour le grec ancien ;

3. On réalise un script JavaScript repérant et traitant les différents phénomènes d’incompatibilité, afin d'obtenir une visualisation adéquate pour chacune des balises XML qui serait utilisée dans un élément mathématique encodé en LaTeX.

Ces différentes pistes sont à l'étude et nous voudrions arriver à un résultat pour la rentrée académique 2024.

Maria Laura Cucciniello et Candice Lecoffre, mai 2024

Comment citer cette page

équipe EMAN, "EMAN et l’encodage des formules mathématiques"
Site "EMAN (Édition de Manuscrits et d'Archives Numériques)"
Consulté le 18/06/2024 sur la plateforme EMAN
https://eman-archives.org/EMAN/encodage-du-texte-mathematique
Page créée par équipe EMAN le 30/05/2024