Anthology of Computers and the Humanities · Volume 4

De l’image au texte cherchable: traitement computationnel des télégrammes de Vichy (1940-1945)

Vincent Martin-Schreiber1 , Florian Mathieu2 et Jasmin Macarios1

  • 1 Université d’Ottawa, Canada
  • 1 Université Paris-Saclay, Orsay, France

Permanent Link: https://doi.org/10.63744/cvrn6IMHh1i9

Published: 21 May 2025

Keywords: digital humanities, optical character recognition, diplomatic archives, open science, computational sustainability

Mots clés : humanités numériques, reconnaissance optique de caractères, archives diplomatiques, science ouverte, soutenabilité computationnelle

Abstract

Cet article présente une chaîne de traitement complet pour la numérisation et la mise en accès d’environ 11 000 télégrammes diplomatiques du régime de Vichy interceptés par l’Examination Unit canadienne (1941–1945). En combinant reconnaissance optique de caractères par intelligence artificielle (Mistral OCR), extraction automatisée de métadonnées et diffusion en science ouverte via une plateforme Omeka, le projet transforme un corpus archivistique inaccessible en ressource cherchable et réutilisable. Les télégrammes sont désormais librement accessibles, permettant aux chercheurs d’interroger l’ensemble du fonds par recherche plein texte et requêtes booléennes. La contribution examine également les arbitrages techniques, environnementaux et épistémologiques que soulève l’application de méthodes computationnelles aux archives patrimoniales.