Ingénieur·e d'Études en Analyses des Sources Historiques et Culturelles H/F
Université Orléans
- Orléans - 45
- CDD
- Bac +5
- Enseignement • Formation
- Exp. 3 à 5 ans
Les compétences pour ce job
- SGBD
- Gestion des données
Détail du poste
Présentation du service/laboratoire:
Le laboratoire POLEN (Pouvoirs, Lettres, Normes - UR 4710), a une vocation fortement pluridisciplinaire, puisqu'il regroupe littéraires, historiens, historiens du droit, civilisationnistes, linguistes et anthropologues. Le projet scientifique d'ensemble du laboratoire porte sur la question de l'autorité, du pouvoir et du modèle, dans leurs différentes formes ou natures, et dans leurs différents modes d'expression, de représentation et de diffusion. Cette question soulève celle, a contrario, de la contestation, de la subversion et de la marge. Le projet "Sociabilités de l'information au XVIIIe siècle" s'inscrit plus spécifiquement dans l'équipe Claress (De l'âge CLAssique aux REStaurationS).
Présentation du projet:
Le/la Ingénieur(e) sera en charge de développer, optimiser et déployer des modèles de reconnaissance de texte sur des manuscrits français du XVIIIème siècle et d'en proposer une exploitation textométrique. Ce poste s'inscrit dans un projet de recherche sur élaboration, la circulation et la manipulation de l'information, intitulé « Sociabilités de l'information et de la désinformation au XVIIIe siècle ». Le/la Ingénieur(e) travaillera principalement avec une historienne, spécialiste des médias des XVIIe et XVIIIe siècles.
Missions:
Développement et optimisation des modèles HTR:
-Concevoir, entraîner et évaluer des modèles de HTR (ex : CRNN, Transformer) pour la transcription automatique de documents manuscrits.
-Adapter les modèles existants (ex : Kraken, Calamari) ou en développer de nouveaux en fonction des spécificités des corpus (écritures anciennes, langues rares, etc.).
-Utiliser eScriptorium pour l'annotation, l'entraînement et l'évaluation des modèles.
Prétraitement et préparation des données:
-Nettoyer, segmenter et annoter des images de documents manuscrits (binarisation, correction de perspective, etc.).
-Collaborer avec les archivistes pour constituer des jeux de données labellisés de qualité.
-Automatiser les pipelines de prétraitement (OpenCV, Scikit-image, etc.).
Intégration et déploiement:
-Intégrer les modèles HTR dans des workflows de numérisation (API, scripts Python).
-Optimiser les performances (temps de traitement, précision) pour des volumes importants de documents.
-Documenter les processus et former les utilisateurs finaux (archivistes, chercheurs).
Analyse et visualisation des transcriptions:
Utiliser TXM (Textométrie) ou des outils similaires pour :
- Visualiser les transcriptions en lien avec les images originales (alignement texte/image).
- Générer des statistiques d'usage des mots (fréquences, cooccurrences).
- Permettre des recherches par mots-clés dans les corpus transcrits.
Automatiser l'export des transcriptions vers des formats compatibles avec TXM (TEI, CSV, etc.).
Évaluer la pertinence de l'outillage de type RAG sur IA
Le profil recherché
Formation et expérience professionnelle :
Bac +5 (Master, diplôme d'ingénieur) en informatique, sciences des données, humanités numériques, archivistique, ou discipline scientifique avec une spécialisation en gestion de données.
Expérience de 3 à 5 ans dans un poste similaire (gestion de BDD, numérisation, traitement de données scientifiques). Expérience en milieu académique ou culturel (bibliothèques, archives, laboratoires) appréciée.
Paléographie de manuscrits français du XVIIIe siècle
Maîtrise des outils HTR (eScriptorium ou Arkindex)
Langages de programmation : Python (PyTorch, TensorFlow, OpenCV, Scikit-learn).
Traitement d'images : Techniques de binarisation, segmentation, augmentation de données.
Expérience en deep learning (CNN, RNN, Transformers) et en évaluation de modèles (métriques : CER, WER).
Outils d'analyse textuelle : TXM (un atout majeur), AntConc, ou autres logiciels de textométrie.
Rigueur : Respect des protocoles et traçabilité des actions.
Autonomie : Capacité à proposer des solutions techniques adaptées.
Esprit d'équipe : Collaboration avec des profil·e·s variés (chercheur·e·s, archivistes, informaticien·ne·s).
Pédagogie : Formation des utilisateur·rice·s aux outils mis en place.
Adaptabilité : Réactivité face à l'évolution des besoins du projet.
Publiée le 30/06/2026 - Réf : 2026-2332443