Cette table ronde a pour objet de présenter aux praticiens de l’histoire ce que le numérique fait à l’école des Chartes. Dit autrement, on peut se demander comment cette vénérable institution, dédiée initialement « aux sciences auxiliaires de l’histoire » a pu tirer parti de la révolution numérique en cours…
Pour en parler,
2 modérateurs :
Elsa MARGUIN-HAMON, directrice de la recherche et des relations internationales à l’École nationale des Chartes et Laurent ROMARY, directeur de recherche à Inria, au sein du laboratoire ALMANACHL’équipe ALMAnaCH (Automatic Language Modelling and Analysis & Computational Humanities) a pour domaine de recherche le traitement automatique des langues (TAL), au cœur de l’Intelligence Artificielle et des Humanités Numériques, à la croisée entre informatique théorique, apprentissage automatique et linguistique. .
Et 3 Conférenciers :
Jean-Baptiste CAMPS, maître de conférences à l’École nationale des Chartes, responsable du master Humanités numériques, Vincent JOLIVET, responsable de la mission projets numériques à l’École nationale des chartes, Marc SMITH, professeur de paléographie à l’École nationale des Chartes.
La numérisation, une aubaine pour les sources patrimoniales
Laurent Romary : Nous avons d’excellents masters en collaboration avec la Bnf. Et confier des sources aux informaticiens n’est pas forcément le mieux. Les nôtres sont à la fois geeks et humanistes par exemple pour les minutes notariées. Ces sources numérisées forment elles-mêmes un patrimoine numérique.
Elsa Marguin-Hamon :
Qu’attendre de la reconnaissance d’écriture manuscrite (HTR) ?
LR : la machine (très bête) va avec de plus en plus d’échantillons reconnaitre les blancs, les lignes, puis l’écriture proprement dite. Un « zigouigoui » sur une lettre peut causer quelques soucis. D’où l’importance d’alimenter avec des sources les plus vraies possibles pour améliorer notre connaissance du patrimoine.
LR : Donc, à terme, aura-t-on encore besoin de paléographes ?
Vincent Jolivet :
L’Homme et la machine sont vus en concurrence. Heureusement pour notre collègue Marc Smith, Google n’a pas encore gagné ! L’HTREn anglais Handwritten Text Recognition. En français : Reconnaissance de l’écriture manuscrite (REM). piétine vis à vis des caractères manuscrits, alors que l’OCROptical Charter Recognition ou Reconnaissance optique de caractères en français s’en sort très bien pour les caractères imprimés.
Les défis :
Ils sont nombreux !
La langue / l’orthographe / le tracé des lettres (le ductus), la cursivité (par ex les ligatures), les abréviations, la complexité des mises en pages (enlumineures, colonnes).
Comment fonctionne l’HTR ?
Des progrès considérables
L’IA réussit à lire globalement une écriture spécifique. Pour autant, 8 mots sur 20 ne sont pas lus. Ce sont ceux que le paléographe devra déchiffrer.
C’est possible d’arriver à un tel résultat grâce à des collaborations entre Inria et l’Ecole comme CREMMALe projet Consortium Reconnaissance d’Écriture Manuscrite des Matériaux Anciens (CREMMA) vise la création d’un service de mise à disposition de ressources serveur pour favoriser l’accès à la reconnaissance d’écriture manuscrite (REM / HTR)..
Résultat : en 2 ans, 14000 des registres capitulaires de Notre Dame ont pu être transcrits en écriture numérique. Pour comprendre les énormes progrès permis, il aurait fallu 60 ans à un paléographe pour obtenir le même résultat…
Coller à la source facilite l’HTR, l’HTR n’ayant pas pour vocation de déchiffrer un texte, mais de lire un texte spécifique.
L’HTR et l’historien
Le procédé habituel d’information suppose que l’on ait une vérité de terrain qui soit acceptable par tous. L’idée est de modéliser plus rapidement le déchiffrement de l’écriture, afin de laisser toute sa place au travail d’interprétation de l’éventuelle polysémie. Une vaste documentation inédite devient alors accessible par l’analyse :
- Traitement automatique de la langue par annotation et indexation
- Text Mining (fouille de données et extractions de connaissances)
- Topic Modeling (classification thématique )
L’HTR et le paléographe
Les étapes :
- Déchiffrer, lire
- Comprendre l’évolution des écritures
- Dater et situer la provenance des témoignages écrits
- Procéder à des tâches de classification (auxquelles l’IA excelle…)
L’HTR et l’ingénieur
De grandes quantités de documents numérisés par l’IA peuvent être ensuite utilisées pour des recherches spécifiques historiennes .
Conclusion :
Kasparov défait par Deep Blue, c’était il y a 23 ans. Abattu par sa défaite, le champion du monde déclara après « avoir fait la paix avec l’IA, le rôle de l’humain étant de collaborer avec la machine ». Or si Deep Blue avait réussi à emmagasiner des milliards de combinaisons de jeu pour battre le meilleur humain, l’IA peine à reconnaître les formes manuscrites liées à la créativité humaine.
Marc Smith :
L’IA, un gain considérable
L’IA nous permet un gain de temps considérable. On fait du numérique comme M. Jourdain faisait de la prose.
Une bénédiction pour les écritures dans les peintures médiévales
Peintures de la fin du Moyen-Age sont très souvent accompagnées d’écritures. Or les restaurateurs sont réticents à intervenir matériellement sur les oeuvres écrites. Le paléographe peut lui intervenir numériquement sans toucher à l’oeuvre mais en proposant un procédé de reconstitution au public.
L’exemple de 2 oeuvres maîtresses des frères Van Eyck, les plus grands peintres du XVe siècle.
Le retable de Gand
Les inscriptions dans les banderoles et les cadres ont été abimées par les manipulations inhérentes mais aussi par les vols dont fut l’objet ce chef-d’oeuvre de l’art primitif flamand. Nous les connaissions par des transcriptions faites postérieurement au XVIe siècle, mais qui sont remises en cause par les historiens de l’art.
Sur la base de ces restes plus ou moins visibles une transcription de 2011 est reprise par Marc Smith.
Dans le portrait des époux Arnolfini on retrouve les mêmes entrelacs… ce qui prouve que les écritures sont bien des frères Van Eyck.
Le diptyque de la Cruxifixion et du Jugement dernier
Les 2 panneaux sont conservés au MET de NewYork. On y a retiré la couche d’or ; dessous apparaissent des traces de lettres à peine visibles.
Même démarche mais sans que le texte soit connu d’avance. La traduction se fait en néerlandais médiéval avec l’utilisation d’un dictionnaire numérique. L’oeuvre s’adressait donc à un public laïc.
D’où la localisation de l’oeuvre à Bruxelles au XVe siècl, le public ayant accès au reliquaire pour le vénérer.
Un exemple en images des résultats obtenus avec Marc Smith :
«L’Agneau mystique » de Van Eyck, une restauration spectaculaire La Croix, Sabine Gignoux, Gand, 11/02/2020
Jean-Baptiste Camps
La stylométrie à l’école des Chartes
Définition
La stylométrie est un domaine de la linguistique qui utilise la statistique pour décrire les propriétés stylistiques d’un texte. Elle est utilisée pour identifier le style d’un auteur, pour identifier un auteur de textes anciens, pour identifier un auteur anonyme dans le domaine judiciaire.https://fr.m.wikipedia.org/wiki/Stylométrie
Le stylome : chacun a un code d’écrit unique que l’on détecte par travail statistique.
Une vieille affaire…
L’idée de compiler les occurrences de textes pour prouver que l’auteur l’a bien écrit, que d’autres ne l’ont pas fait à plusieurs… est ancienne. Au milieu du XIXe siècle, on cherche à savoir si les écrits de Platon, de Saint Paul ou de Shakespeare sont un travail collectif.
… Renouvelée avec l’informatique
Il faut néanmoins attendre les années 50 pour compiler automatiquement avec l’apparition de la science informatique. En 1963, deux linguistes américains, Forsteller et Wallace mettent en évidence qui d’Alexander Hamilton ou de James Madison a précisément écrit les différents articles des Federalist Papers, qui promouvaient la constitution américaine.Idem. Les 2 auteurs avaient publié les Federalist Papers sous le pseudonyme de Publius…
A noter que l’intervenant sur cette question, le chartiste Jean-Baptiste Camps, ainsi que son collègue Florian Cafiero, ont confirmé en 2019 la paternité des oeuvres de Molière, dont le doute au profit de Corneille avait longtemps persistéIbidem.. Ils ont également pris récemment position pour l’utilisation d’une expertise en stylométrie des écrits de 6 « corbeaux » et une autrice principale dans l’Affaire Grégory20 Minutes, daté du 23/04/2021.
Une table ronde certes technique, mais qui amène à méditer sur les progrès extraordinaires dans la compréhension des textes anciens avec les outils informatiques utilisés par l’école et ses enseignants-chercheurs de très haut niveau. Chapeau bas !