IA et archives : une collaboration fructueuse - Naoned

IA et archives : une collaboration fructueuse

Depuis quelques mois, pas un jour ne passe sans que l’intelligence artificielle (IA) ne fasse parler d’elle. Et les services comme ChatGPT ou Midjourney ne sont que la partie émergée de l’iceberg. 

Dans le domaine des archives, l’IA est exploitée pour la reconnaissance d’écriture, l’indexation automatique ou encore l’amélioration des résultats de recherche et l’analyse de données à grande échelle. Les possibilités sont infinies. 

Dans cet article nous revenons sur les projets récents en matière d’IA et de traitement des sources archivistiques, et notamment le projet Socface, auquel Naoned prend part.

Tour d’horizon des projets archivistiques basés sur l’IA

Himanis, Simara, Lecturautep…ces mystérieux noms ne sont pas des dieux de l’Ancienne Egypte mais les acronymes de trois projets archivistiques où l’intelligence artificielle a permis de grandes avancées en matière de valorisation des registres manuscrits. Des innovations majeures pour les chercheurs et pour le grand public.

HIMANIS : le Trésor des Chartes révélé

Les registres du Trésor des Chartes, fonds le plus ancien conservé par les Archives nationales, constitue un ensemble de deux cents volumes, cartulaires et formulaires produits par la chancellerie royale française entre 1302 et 1486.

Ces manuscrits médiévaux sont le cœur des archives de la couronne et présentent un intérêt inestimable pour comprendre la construction de l’État français. Or, jusqu’à présent, ces archives étaient très difficilement accessibles. 

C’est pour pallier cette situation que le projet HIMANIS (HIstorical MAnuscript Indexing for user-controlled Seach) a été mis en œuvre. Piloté par l’Institut de recherche et d’histoire des textes (IRHT), ce projet européen conduit entre 2015 et 2018 avait pour objectif de débloquer l’indexation et la recherche en plein texte de ces registres. 

Le défi était immense : ces dizaines de milliers de pages de textes médiévaux sont écrits en plusieurs langues (latin, français, occitan), avec des centaines d’écritures différentes. Cette forte variabilité représente un défi technique que le projet HIMANIS a relevé. 

Pour indexer massivement le plein texte de ces registres, les chercheurs ont utilisé 0,5% du corpus pour entraîner l’IA à comprendre la structure des pages, lire ces textes, identifier les scribes et leur écriture et résoudre les abréviations.

Aujourd’hui, ces sources manuscrites sont en accès libre sur le web et tout le monde peut y faire des recherches en plein texte. Une révolution pour les historiens.

SIMARA : la rétroconversion des inventaires

Les inventaires sont des clés d’accès indispensables pour retrouver ce qu’on cherche. Ils comportent les métadonnées des archives (titre, date, entités, délais…). Seulement, pour des inventaires manuscrits qui n’ont été numérisés qu’en mode image, les fonds demeurent virtuellement inaccessibles. Et la chaîne de dématérialisation (saisie manuelle, structuration, encodage, publication) est extrêmement chronophage : 2 mois sont nécessaires pour saisir et encoder manuellement 300 pages !

C’est pour résoudre ce problème que le projet SIMARA (Saisie d’Inventaires Manuscrits Assistée par Reconnaissance Automatique) a été lancé. À l’aide du Machine Learning* et du HTR (Handwritten Text Recognition)*, les chercheurs ont réalisé en même temps la transcription (par l’IA) et la structuration XML (sur la base d’une modélisation). 

En améliorant les instruments de recherche existants, SIMARA a permis d’expérimenter l’indexation automatique sur un corpus de grande ampleur et de réaliser des analyses de données massives (100 000 pages d’inventaires, 800 000 fiches). Concrètement, les fonds d’archives exploités ont ainsi révélé de nouveaux enseignements sur la construction de l’Etat royal et le contrôle régalien.

LECTAUREP : la lecture automatique des archives notariales

Les répertoires des actes notariés sont une des sources historiques les plus consultées aux Archives nationales. Ils consignent par ordre chronologique les actes établis et comportent des métadonnées riches que l’on peut catégoriser en type d’actes, dates, noms d’agent, professions, noms géographiques, etc.

Les répertoires parisiens sont numérisés et accessibles en mode image dans la salle des inventaires virtuelle des Archives nationales. Mais il faut s’armer de patience avant de trouver la mention de l’acte que l’on recherche, surtout si on ne connaît pas la date exacte de l’acte ou le nom du notaire.

Faciliter l’utilisation de ces instruments de recherche que constituent les répertoires représente donc un enjeu fort tant pour la recherche que pour le grand public. 

C’est dans ce contexte que le projet  LECTAUREP (LECTure Automatique de REPertoires) est né en 2018, à l’initiative du Minutier central des notaires de Paris et des Archives nationales de l’Inria (équipe ALMAnaCH – Automatic Language Modeling and Analysis) et de l’EPHE, en partenariat avec le Ministère de la Culture. 

Mené sur les répertoires de notaires parisiens de 1803 à 1940, ce projet consiste à mettre en place des outils de détection de texte (HTR)* et le traitement des informations (NER)*, ainsi qu’une plateforme collaborative pour corriger les transcriptions et les annotations. La plupart de ces traitements sont réalisés aujourd’hui sur la plateforme eScriptorium, dont les fonctionnalités élargies donnent une nouvelle dimension au projet. 

LECTAUREP continue d’évoluer et permettra bientôt des approches quantitatives (nombres d’actes ou de clients sur une période, professions exercées dans une zone géographique, fiscalité…).

SOCFACE: l’intelligence artificielle appliquée à la reconnaissance d’écriture manuscrite

Dans continuité des projets précédents, SOCFACE est un projet soutenu par l’Agence nationale pour la Recherche (ANR), porté par l’Institut national d’études démographiques (INED), l’École d’Économie de Paris, le SIAF et les experts en intelligence artificielle de la société Teklia. 

Réunissant des archivistes, démographes, économistes, historiens et informaticiens, SOCFACE a été lancé en 2022 et s’achèvera en 2025. Le projet vise une meilleure connaissance de la population française du XIXe siècle. Pour ce faire, les chercheurs s’appuient sur 20 recensements de la population entre 1836 et 1936.

Des technologies de reconnaissance automatique d’écriture manuscrite sont mises au point pour analyser l’ensemble des listes nominatives du recensement et produire une base de données des individus ayant vécu en France durant cette période et retracer leurs parcours de vie. Cette base de données sera ensuite exploitée pour étudier l’évolution de la société française sur un siècle. 

Naoned se réjouit d’être partenaire du projet SOCFACE dans sa phase pilote : nous accompagnons les services d’archives départementales volontaires en les aidant à extraire les images (recensements numérisés) et les métadonnées associées pour les mettre à disposition de Teklia, qui les utilise pour entraîner son algorithme
Lorsque les données du projet seront disponibles, Naoned aura également un rôle à jouer pour les valoriser dans le logiciel Mnesys Expo. À terme, la retranscription des listes nominatives obtenue sera mise à disposition du grand public, permettant à quiconque de parcourir librement des millions d’enregistrements.

* Petit glossaire de l’IA

  • Machine Learning (apprentissage automatique) : domaine scientifique consistant à entraîner des algorithmes à identifier des motifs récurrents (patterns) dans un ensemble de données (chiffres, mots, images, statistiques…).
  • Deep learning (apprentissage profond) : algorithmes capables de mimer les actions du cerveau humain grâce à des réseaux de neurones artificiels.
  • HTR – Handwritten Text Recognition (reconnaissance d’écriture manuscrite) : traitement informatique ayant pour but de transcrire un texte manuscrit en texte codé numériquement. C’est l’équivalent de l’OCR (Optical Character Recognition) pour le manuscrit. 
  • NER – Named-entity Recognition (reconnaissance d’entités nommées) : sous-tâche de l’extraction d’information qui consiste à catégoriser des mots ou des groupes de mots (noms de personnes, noms de lieux, dates, valeurs…) dans un corpus documentaire.
Partagez
0 commentaire(s) on IA et archives : une collaboration fructueuse

Post a comment

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *