Notes de cours de l'ENS

Notes de cours de l'ENS


Le module utilisé pour la transcription : Transcript

Conçu et développé par Vincent Buard (Numerizen) pour le compte de la plateforme EMAN (ITEM), Transcript est un outil de transcription et d’annotation utilisant la barre outil TinyMCE améliorée et supportant le balisage TEI. Il permet ainsi de  transcrire et encoder un document image publié sur Omeka classic.

L’objectif du module est de permettre à un utilisateur non expert de pouvoir saisir et annoter une transcription en proposant en vis-à-vis de l’image, un bloc texte accompagné d’une barre d’outils pour l’encodage de la transcription avec des balises XML/TEI.

L’utilisateur n’a pas besoin de saisir directement les balises XML/TEI mais les sélectionne dans les menus de la barre outils. Au besoin, le code source est toujours accessible. Le module est accompagné d’un guide d’utilisation expliquant l’usage des balises XML/TEI dans le cadre de cet outil et les adaptations spécifiques au projet utilisant Transcript.

Il utilise la TEI pour encoder les phénomènes éditoriaux ou annoter certains termes. Ces balises TEI sont stockées dans la base de données MySQL d'Omeka. À l'affichage et à l'export, on n'obtient pour le moment qu'un fichier XML. L’objectif d’une future version sera de permettre l’export de fichiers XML-TEI structurés et réutilisables.

Encodage

Pour la saisie de la transcription, on a adapté profondément la barre outils TinyMCE version 4, avec la possibilité de visualiser le code source. Les modifications ont également porté sur la mise en place  d’un contrôle de cohérence des balises TEI et de fonctionnalités propres au projet. Les balises disponibles et leurs règles d’utilisation sont gérées dans un fichier de configuration et ont un formalisme standardisé qui respecte les préconisations du schéma TEI, notamment en ce qui concerne l’imbrication des balises (par exemple <orig> et <reg> sont obligatoirement contenues dans <choice).

L’utilisateur expert peut aussi saisir directement la transcription et les balises dans le code source. Les balises seront alors sauvegardées si elles font partie du vocabulaire connu par TinyMCE dans lequel nous n’avons pas intégré l’ensemble du dictionnaire des balises TEI. Le choix a été fait de définir en amont, le schéma TEI et les balises nécessaires à la transcription des Notes de cours. Le guide de saisie a été adapté pour expliquer la cohérence du balisage utilisé dans ce projet : il y a de nombreuses règles d’emploi de balises imbriquées à d’autres, nous avons reporté les règles de la TEI pour qu’elles soient intégrées à la barre outil TinyMCE.

Par ailleurs, pour le traitement des équations et formules mathématiques, non traitées directement par la TEI, nous utilisons le langage MathML. Elles doivent être encodées directement dans le code source de la transcription, TinyMCE pourra les intégrer et les sauvegarder.

Visualisation

Pour la visualisation de la transcription, nous utilisons l’outil TEI Boilerplate qui a, lui aussi, été fortement modifié. Le choix d’affichage actuel privilégie le plein-écran, nécessitant de sortir de la notice Omeka. Cela permet de profiter au maximum de l’espace pour afficher, en vis-à-vis, l’image et le texte transcrit (un pré-requis du projet Notes de cours comme de la plupart des projets de transcription). Par ailleurs, dans notre thème EMAN gérant l’affichage des contenus d’Omeka, une loupe a été intégrée à l’image de la ressource numérisée, afin d’en lire aisément le contenu. L’affichage du codage de la transcription se fait  grâce aux balises TEI, par l’intermédiaire d’icônes supplémentaires et d’infos-bulles donnant des informations sur le phénomène codé.

Nous proposons actuellement une visualisation avec deux états de la transcription : un affichage allégé avec une transcription imitative (avec peu d'encodage visible) ou une transcription normalisée (indiquant par exemple la forme étendue d’une abréviation) avec toutes les balises utilisées sont alors signalées par une icône.

L’outil déjà bien complet a été amélioré à l’occasion d’une deuxième version prévoyant de nouveaux développements : interface d’administration des balises disponibles et des règles de cohérence (ajouts, modifications, suppressions), gestion des transcriptions, personnalisation de l’affichage (choix des balises à montrer dans les deux états de transcriptions), amélioration de l’ergonomie et de la navigation entre notice et transcription, export en différents formats en intégrant la notice Omeka du document, etc. Cette deuxième version est disponible sur GitLab.

Comment citer cette page

Charlotte Dessaint, "Le module utilisé pour la transcription : Transcript"
Site "Notes de cours de l'ENS"
Consulté le 21/11/2024 sur la plateforme EMAN
https://eman-archives.org/coursENS/plugin-transcript
Page créée par Charlotte Dessaint le 02/04/2018
Page modifiée par Maria Laura Cucciniello le 01/03/2023