Aller au contenu principal

Ingénieur Apprentissage Automatique - Data Engineer H/F

INSERM - Délégation Régionale Paris 11

  • Villejuif - 94
  • CDD
  • Bac +5
  • Service public hospitalier
Lire dans l'app

Les missions du poste

Missionprincipale :
Le/la titulaire du poste met en oeuvre en production courante le codage des causes de décès enintégrant, parmi les modalités de codage, des outils d'intelligence artificielle et participe à
l'évolution du système d'information. Ces outils fondés sur de l'apprentissage profond et dutraitement automatique des langues améliorent la qualité et la rapidité de codage automatique.
Ils seront adaptés pour tenir compte du prochain changement de nomenclature (passage de laCIM 10 à la CIM 11) et de façon à satisfaire les délais réglementaires de diffusion de la base.
Le poste se situe dans le pôle production des données du CépiDc, dans l'équipe automatisation,sous la responsabilité de la cheffe d'équipe, et en étroite collaboration avec la data scientist
senior. La/le candidat(e) sera prêt à travailler en collaboration avec le reste de l'équipemultidisciplinaire des experts métiers de la production (codeurs, nosologistes, responsables deproduction, ...), les statisticiens du CépiDc et sera partie prenante dans l'écosystème formé avecles partenaires de recherche et développement (médecins spécialisés en informatique médicale
et data scientists, de l'AP-HP, Lisn-Cnrs, Insee, Santé publique France, Inserm).
Il/Elle bénéficie d'un accès à des ressources de calcul (GPU) permettant de concevoir, entraîner,
tester des modèles et de prédire.

Activitésprincipales
- Mettre en production, maintenir, monitorer et valider une chaîne de traitements de donnéestextuelles comprenant des prédicteurs de type réseaux de neurones (transformers) pouraider/automatiser le codage du texte libre des certificats de décès dans la CIM (annotation,training/fine-tuning, monitoring).
- Mettre en production le ciblage des certificats à allouer aux différentes modalités de codage(automatique, IA, manuel), évaluer l'amélioration continue du codage automatique (en tauxde codage et en qualité) en vue d'une boucle d'apprentissage continue (on line) à partir dela validation/correction des codeurs des propositions de l'algorithme.
- Adapter de l'architecture du modèle et feature engineering en vue d'améliorer la classificationdes causes, en adéquation avec la finalité statistique du traitement et les bonnes pratiques.
- Participer à l'internationalisation de ces méthodes en lien avec les instances représentativesfrançaises à l'OMS et au sein de l'Europe.
- Assurer une veille scientifique sur les modèles et les algorithmes à l'état de l'art dans le domaine.

- Participer activement à des groupes d'échanges de bonnes pratiques existants ou àconstruire regroupant datascientists, statisticiens et chercheurs en épidémiologie etinformatique (Insee, DREES, Inserm, Inria,...) autour de l'usage de l'IA/TAL sur ces
thématiques.

Connaissances

- Apprentissage automatique, traitement automatique des langues, deep learning, science des données
- Maîtrise de l'ensemble des étapes allant du développement à la mise en production
- Maîtrise des environnements.

Niveau dediplôme etformation(s) :

- Diplôme d'ingénieur de grandes écoles, thèse de doctorat ou équivalence professionnelle.

Expérience(s)souhaité(s) :

- Deux ans d'expérience professionnelle avec usage de Python et des librairiesd'apprentissage profond.

- Une expérience réussie dans la mise en production d'un pipeline de machine learning estsouhaitée.

Le CépiDc, unité de service de l'Inserm, a pour mission de produire la base de données statistique sur les causes médicales de décès en France, de la diffuser et de réaliser des analyses sur cette base de données. Cette base de données statistique repose sur
la collecte et le traitement des volets médicaux des certificats de décès. Ses finalités d'usage sont 1- la connaissance de l'état de santé de la France et de ses territoires, sa
comparaison au niveau international, en vue d'aider au pilotage des politiques de santé publique, 2- la recherche et les études, la statistique alimente le système national des données de santé, 3- la veille et l'alerte sanitaire, par la production de la donnée la plus
pertinente possible dans des délais de quelques jours. Les principaux traitements réalisés au CépiDc concernent l'accueil, le contrôle et l'intégration des données collectées, leur mise à disposition immédiate à des fins de veille de sanitaire à Santé publique France. Puis, le dédoublonnage et la correction de non-réponse totale via une mise en cohérence avec les décès déclarés à l'Etat civil et gérés par l'Insee.(synchronisation), et la construction des variables statistiques, avec en particulier le codage des causes de décès.
Concernant ce dernier aspect, il s'agit d'analyser et de coder les textes rédigés par les médecins lors de la constatation des décès dans la Classification Internationale des Maladies (CIM).

Publiée le 28/11/2025 - Réf : 2025-2031668

Ingénieur Apprentissage Automatique - Data Engineer H/F

INSERM - Délégation Régionale Paris 11
  • Villejuif - 94
  • CDD
Publiée le 28/11/2025 - Réf : 2025-2031668

Finalisez votre candidature

sur le site du partenaire

Créez votre compte pour postuler

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

MP Data recrutement
Paris - 75
CDI
45 000 - 55 000 € / an
Voir l’offre
il y a 26 jours
Safran recrutement
Safran recrutement
Voir l’offre
il y a 17 jours
Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Application Android (nouvelle fenêtre) Application ios (nouvelle fenêtre)
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact