400 000 manuscrits médiévaux décryptés en minutes par une IA

·

·

6 min de lecture

Un écran numérique futuriste affiche d'anciens manuscrits hébraïques au-dessus d'un vieux livre ouvert sur un bureau en bois, avec le texte lumineux "Cherchez la connaissance". Des bougies allumées entourent le bureau dans la grande bibliothèque de Waikuu, remplie d'étagères.

⚡ En bref

  • Une IA vient de transcoder 400 000 manuscrits médiévaux en quelques minutes – l’équivalent de décennies de boulot humain. 🤯
  • La Genizah du Caire, une capsule temporelle de 1 000 ans, enfin accessible grâce à l’open-source et un peu de sueur humaine.
  • Peut-on vraiment parler d’un \ »Facebook du Moyen Âge\ » ? Spoiler : c’est du marketing, mais reste impressionnant.

Bon bah voilà, encore une IA qui fait un truc de dingue. Imagine : 400 000 fragments de manuscrits médiévaux, en hébreu, araméen, arabe et même yiddish ancien, transcrits en quelques minutes. Oui, tu as bien lu. Quelques minutes. Si t’avais essayé de faire ça à la main, t’en aurais eu pour des décennies. Et encore, je dis \ »décennies\ » parce que je suis sympa. En vrai, t’aurais probablement fini à moitié fou, entouré de parchemins jaunis, en pleurs devant ta troisième bouteille de café froid.

Mais là, c’est fait. Et tout ça grâce à eScriptorium, une plateforme open-source qui cartonne en ce moment. Le truc utilise de l’OCR (reconnaissance optique de caractères) et de l’HTR (reconnaissance de texte manuscrit), avec un petit twist : des humains dans le processus. Oui, oui, des humains, ces bipèdes qu’on oublie parfois dans les projets IA. Le principe ? Les machines transcrivent, les humains corrigent, et boum, le modèle s’améliore tout seul. On appelle ça de l’apprentissage actif, genre.

La Genizah du Caire : un trésor médiéval enfin déchiffré

Franchement, imagine si t’avais une pièce dans ta maison où t’entassais tous les papiers importants pendant, oh, disons 1 000 ans. Ben ça, c’est la Genizah du Caire. Une collection gigantesque de documents juifs médiévaux, stockés dans une synagogue au Caire. Lettres, contrats, poèmes, hébreu, araméen, arabe… Bref, un concentré de vie quotidienne du Moyen Âge. Et le mieux, c’est que 90 % de ces textes n’avaient jamais été lus ni exploités avant.

Mais attends, c’est pas tout. Parmi ces trésors, t’as des trucs incroyables, comme :

  • Une lettre à moitié gribouillée en yiddish ancien, écrite par une veuve à son fils, avec des notes dans les marges pour lui dire qu’elle galère avec une peste. Genre, une peste, quoi.
  • Des écrits de Maïmonide, oui, le Maïmonide, le philosophe mythique qui soignait aussi les gosses de Saladin.

Et tout ça, c’était illisible jusqu’à récemment. Pourquoi ? Parce que c’est écrit à la main, sur des supports dégradés, avec des écritures qui changent selon les époques. Bref, un cauchemar pour un chercheur.

Comment ça marche, techniquement ?

Ah, là, on rentre dans le vif du sujet. eScriptorium, c’est pas juste un outil, c’est un pipeline complet. Voici comment ça se passe :

  1. Segmentation : Le système découpe les pages en lignes. Pas en caractères, hein, en lignes entières. Pourquoi ? Parce que les manuscrits sont souvent fragmentés ou mal alignés.
  2. Transcription : Une fois les lignes découpées, le modèle les traite comme des unités complètes. Et là, ça reconnaît pas juste des lettres, mais aussi des formules juridiques, des prières, ou des phrases récurrentes.
  3. Correction humaine : Les textes les plus complexes (genre, une lettre en yiddish avec des annotations marginales) passent sous les yeux d’un humain. Et là, grosse innovation, les corrections sont réinjectées dans le modèle pour améliorer sa précision. C’est ce qu’on appelle le human-in-the-loop.

Petit exemple en Python, pour que tu te fasses une idée :

from escriptorium import Project

project = Project(
    name=\"cairo_genizah\",
    languages=[\"hebrew\", \"aramic\"],
    script_type=\"Hebrew_Medieval\",
    segmentation_model=\"default-hebrew\",  # Modèle pré-entraîné sur des manuscrits
    transcription_model=\"genizah-base\"  # Fine-tuné sur 10k lignes de la collection
)

# Entraînement avec validation humaine
project.train(
    ground_truth=\"path/to/corrected_lines.xml\",  # Fichier TEI avec corrections
    epochs=50,
    batch_size=16
)

Oui, c’est simple. Oui, c’est puissant. Et oui, t’as intérêt à avoir un bon GPU pour faire tourner ça sur des gros lots.

Une révolution pour les chercheurs

Bon bah, imagine. En quelques minutes, tu peux transcoder un fragments qui aurait pris 1 heure pour un expert. Résultat ? Une réduction de 99,9 % du temps de transcription. Et cerise sur le gâteau, tout ça sera accessible en ligne d’ici un an. Enfin, d’ici un an… à prendre avec des pincettes, hein, on connaît les promesses des budgets académiques.

Mais le truc vraiment cool, c’est que ça ouvre la porte à des recherches historiques incroyables. Par exemple :

  • Étudier l’évolution des langues et des dialectes sur plusieurs siècles.
  • Analyser des échanges commerciaux ou des pratiques juridiques médiévales.
  • Ou juste fouiller dans la vie des gens, genre, trouver des histoires perso touchantes, comme celle de Rachel et son fils.

Le \ »Facebook du Moyen Âge\ » : vraiment ?

Bon, là, faut qu’on parle de cette expression qu’on voit partout : \ »Facebook du Moyen Âge\ ». Ok, c’est accrocheur. Mais faut bien le dire, c’est du marketing pur et dur. La Genizah, c’est pas un réseau social interactif, c’est une archive passive. Il y a des trésors dedans, mais c’est pas comme si les gens se likaient mutuellement leurs parchemins.

Et attention, hein, y’a des biais à prendre en compte. Par exemple, le modèle pourrait être meilleur sur l’hébreu que sur l’arabe judéo-arabe, parce que les données d’entraînement ne sont pas équilibrées. Et puis, pour ceux qui veulent fouiller dans les détails techniques, pas de benchmark précis sur les erreurs de transcription. Bref, c’est cool, mais c’est pas parfait.

Mon avis : overhype ou révolution ?

Ok, je vais pas mentir, ce projet est impressionnant. 400 000 fragments transcrits en un temps record, c’est énorme. Et en plus, c’est open-source, donc tout le monde peut jouer avec. Mais attention, hein, c’est pas non plus la solution miracle à tous les problèmes historiques. Un peu de prudence, un peu de critique, et ça devrait le faire.

Et toi, t’en penses quoi ? Tu crois que l’IA va vraiment révolutionner la recherche historique ? Ou c’est juste un outil de plus dans la boîte à outils des chercheurs ? Dis-moi tout en commentaire, et partage ce billet pour qu’on en parle ensemble. ^^

Tags :

Vous avez aimé cet article ?

Recevez les prochains directement dans votre boîte mail.