Une première remarque, il est plus aisé de transcrire les lettres de François Guizot que celles de la princesse de Lieven. Jacques Naville remarque très justement dans son Avertissement que "l’écriture de la princesse de Lieven, vive, volontaire, proche parfois de la sténographie, négligeant constamment l’accentuation et la ponctuation ainsi que le rôle des majuscules et des minuscules". (ed. 1963, p. XLVI) Cela a donc conduit à un choix de normalisation typographique.
La tension entre lisibilité et fidélité, n’est plus si décisive dans l’environnement EMAN, on a accès tant à la/les transcription(s) qu’à l’image du manuscrit autographe. La normalisation de l’orthographe permet une recherche plein texte à tous les utilisateurs. La transcription doit répondre aux principes d’intelligibilité, accessibilité et « interrogatibilité ».
La pratique de transcription a ses principes mais aussi ses outils. Ici, la transcription est réalisée avec Transkribus, un outil de reconnaissance de caractères manuscrits en faisant usage de l’intelligence artificielle. Mais un protocole doit être suivi.
Il faut d’abord préparer un matériau pour utiliser les outils Transkribus. La première phase de transcription intégrale de cent folios par auteur a été réalisée en ayant recours aux transcriptions de l’édition de 1963 réalisées pour la période 1836-1846 grâce aux procédés d’OCR (optical character recognition) associés à une relecture comparée avec les autographes et à une transcription manuelle pour compléter et obtenir le texte intégral.
Les transcriptions de l’édition de 1963 montrent qu’elles répondent aux principes de fidélités mais il ne s’agit que de fragments. En effet c’est encore le volume du corpus qui détermine les éditeurs à effectuer des choix :
"La fréquence des lettres, les abondants détails de la vie politique, familiale ou intime donnés par les correspondants, les milles reflets de l’actualité dans ces deux miroirs jumeaux nécéssitaient un choix. Pour ne trahir ni une très noble histoire humaine, ni l’histoire d’une époque difficile, il était malaisé de tailler dans cette trame continue. Sur les 840 lettres écrites de 1836 à 1840, nous en donnons 598." (ed. 1963, p. XLVI)
Dans l'édition de 1963, la numérotation établie par les auteurs n’apparaît pas. Les lettres comportant plusieurs dates et heures au fur et à mesure de leur rédaction, l’éditeur date la lettre à partir de la date associée à la partie sélectionnée de la lettre.
Sur le serveur Transkribus sont ensuite importés les images et les textes associés.
Suit une phase de machine learning à l’issue de laquelle un modèle par scripteur est créé par l’équipe Transkribus. Une phase de relecture et correction des transcriptions automatisées sur l’interface Transkribus, folio par folio permet un perfectionnement des modèles par l’équipe Transkribus. Ensuite, pour le traitement du reste des folios, il faut successivement faire usage des outils de reconnaissance de zones de texte et de reconnaissance de caractères. Enfin, lors de la relecture et de l’intégration des transcriptions au sein des notices de la plate-forme EMAN, la question traditionnelle du choix des principes entre fidélité et lisibilité se repose.
L’usage d’un outil de reconnaissance de caractères conduit à appliquer et à étendre le principe de fidélité.
Les contraintes d’une gestion de projet qui vise la mise à disposition rapide d’un volume important de documents ont déterminé une limite de 4 phases de lecture et correction. Dans un premier temps la mise en forme est réduite. Il reste à la perfectionner.
Voir l’Avertissement par Jacques Naville.
Voir les Principes de documentation et d’indexation.
Voir les Principes d’éditorialisation.