Aller au contenu principal
INRIA recrutement

Doctorant Évaluation des Risques Liés au Partage de Modèles d'IA Issues d'Un Eds H/F INRIA

  • Lyon - 69
  • CDD
  • Télétravail partiel
  • 36 mois
  • Bac +5
  • Service public des collectivités territoriales

Les missions du poste

Doctorant F/H Évaluation des risques liés au partage de modèles d'IA issues d'un EDS

Type de contrat : CDD

Niveau de diplôme exigé : Bac +5 ou équivalent

Fonction : Doctorant

A propos du centre ou de la direction fonctionnelle

Le centre de recherche Inria de l'Université Grenoble Alpes regroupe un peu moins de 600 personnes réparties au sein de 27 équipes de recherche et 8 services support à la recherche.

Son effectif est distribué sur 3 campus à Grenoble, en lien étroit avec les laboratoires et les établissements de recherche et d'enseignement supérieur (Université Grenoble Alpes, CNRS, CEA, INRAE, ...), mais aussi avec les acteurs économiques du territoire.

Présent dans les domaines du calcul et grands systèmes distribués, logiciels sûrs et systèmes embarqués, la modélisation de l'environnement à différentes échelles et la science des données et intelligence artificielle, Inria Grenoble - Rhône-Alpes participe au meilleur niveau à la vie scientifique internationale par les résultats obtenus et les collaborations tant en Europe que dans le reste du monde.

Contexte et atouts du poste

Contexte

Les données de santé, généralement issues du soins, constituent un potentiel important pour la recherche et l'organisation du système de santé. Compte tenu du caractère sensible des données médicales, dont la divulgation non maîtrisée entraîne des risques d'atteinte à la réputation et de préjudices pour les personnes concernées, la mise en place de mesures de protections adéquates est un préalable à leur exploitation. Un cadre normatif strict s'applique d'ailleurs aux traitements réalisés sur ces données (règlement général sur la protection des données, loi informatique et liberté, méthodologies de référence, règles internes des organisations, etc.). Outre leur coût et leur complexité de mise en oeuvre, ces mesures de protection limitent le potentiel d'exploitation des données et donc les conséquences positives attendues pour la santé des populations.

Les méthodes visant à garantir la protection des données sensibles sont nombreuses comme l'anonymisation ou la dé-identification des informations, l'agrégation de données, l'apprentissage fédéré, ou la génération de données synthétiques. Dans leurs versions actuelles, ces méthodes ne permettent pas de répondre aux besoins pratiques d'un Entrepôt de Données de Santé (EDS):

- Le choix de la méthode appropriée au cadre légal dans un contexte spécifique dépend de chaque situation et mélange des arguments de nature juridique, scientifique, organisationnel et technique;
- Mise en oeuvre complexe dans un environnement évoluant très rapidement (ex: structure des données souvent complexe, volumétrie importante, évolution rapide des méthodes et modèles de traitement des données, développement de méthodes de ré-identification par exemple sur les modèles entraînés sur des données personnelles, etc.);
- Faible niveau de connaissancesur les risques d'atteinte à la vie privée et les possibilités des méthodes de protection au sein des organisations ;
- Les craintes de risques résiduels d'atteinte à la vie privée conduisent souvent les organisation à une limitation préventives des traitements, parfois au-delà du cadre légal.

Au sein de la direction des services numériques de l'AP-HP, le pôle innovation et données assure, parmi d'autres missions, le développement et l'exploitation d'un entrepôt de données de santé (EDS) regroupant les données de soin des hôpitaux de l'AP-HP. Cet entrepôt, l'un des plus importants d'Europe, contient des informations sur des millions de patients (dossiers médicaux, comptes rendus, résultats d'analyse, imagerie, etc.) et offre des perspectives importantes en matière de recherche clinique, d'appui au pilotage et plus largement d'innovation dans le domaine de la santé. Comme les autres entrepôts de données de santé, il est soumis à des impératifs d'exploitation et de transmission des données pour réaliser des missions primaires ainsi qu'à des contraintes réglementaires et éthiques fortes.

Une grande partie de ces données issues d'un EDS sont des documents textuels non structurés sous forme de rapports médicaux. Avec l'essor de l'apprentissage automatique (ML) et l'avènement du traitement automatique du langage naturel (NLP), les grands modèles de langage (LLMs) sont de plus en plus utilisés pour automatiser le traitement de ces rapports médicaux.

Les dossiers médicaux des patients sont des données extrêmement sensibles et privées. Leur utilisation et leur diffusion sont donc soumises à de nombreuses réglementations, telles que la loi HIPAA aux États-Unis ou le RGPD en Europe. Dans cette réglementation, l'une des principales conditions préalables à la diffusion des données médicales est la suppression de tout élément permettant l'identification directe (c'est-à-dire la dé-identification ou la pseudonymisation) ou indirecte (c'est-à-dire l'anonymisation) d'un patient.

Les avancées récentes en NLP basées sur les réseaux de neurones ont démocratisé leur utilisation. Depuis l'avènement de ChatGPT, les LLMS ne se limitent pas à la génération de texte et peuvent inclure plusieurs tâches, notamment la classification et la reconnaissance d'entités nommées (NER), permettant ainsi la dé-identification de textes libres. Par exemple, Johnson et al. ont proposé d'utiliser un réseau de neurones basé sur une architecture BERT pour détecter un certain nombre d'éléments d'identification dans les documents médicaux. Plus récemment, différents hôpitaux ont également exploré la possibilité d'utiliser des LLMs pour pseudonymiser automatiquement des textes (c'est-à-dire masquer des informations directement identifiantes) issus de leur EDS. Dans ces approches, le modèle BERT est affiné avec les rapports médicaux de l'hôpital (afin d'être spécialisé et de bien comprendre ce type d'information) avant d'entraîner une reconnaissance d'entités nommées (NER) sur un ensemble des informations qui identifient directement les patients. Boutet et al. vont plus loin en proposant une approche permettant de spécialiser un LLM sur des patient médicaux en limitant la mémorisation par le modèle des informations à la fois directement et indirectement identifiantes (c'est à dire ce qui correspond l'anonymisation) afin de faciliter le partage des modèles entre hôpitaux.

Références :

- Deidentification of free-text medical records using pre-trained bidirectional transformers. Johnson AEW, Bulgarelli L, Pollard TJ.Proc ACM Conf Health Inference Learn (2020).
- Tighter Privacy Auditing of DP-SGD in the Hidden State Threat Model. Tudor Cebere, Aurélien Bellet, Nicolas Papernot.
- Revealing the True Cost of Locally Differentially Private Protocols: An Auditing Perspective. Héber H. Arcolezi, Sébastien Gambs.
- Techniques d'audit des grands modèles de langage. Henri Duprieu, Nicolas Berkouk.
- Towards the Anonymization of the Language Modeling. Antoine Boutet, Lucas Magnana, Juliette Sénéchal, et Helain Zimmermann.
- Synthetic Data: Generate Avatar Data on Demand. Thomas Lebrun, Louis Béziaud, Tristan Allard, Antoine Boutet, Sébastien Gambs & Mohamed Maouche.
- AI Privacy Risks & Mitigations Large Language Models (LLMs). Isabel Barbera. EDPB. 2025.

Mission confiée

Objectif

Les travaux envisagés dans cette thèse permettront de répondre aux problématiques actuelles d'un EDS tel que celui de l'AP-HP. Plus spécifiquement, les travaux se focaliseront sur:

- L'anonymisation de modèles d'apprentissage entraîné sur des données personnelles, notamment dans le champ du traitement automatique des langues, afin de faciliter leur partage;
- Le développement d'une méthode générale pour évaluer les risques associés au partage de modèle;
- La mise en application et l'intégration des méthodes proposées à l'EDS ainsi que l'amélioration des performances des méthodes existantes, notamment le passage à l'échelle.

Principales activités

Encadrement:

Le doctorant ou la doctorante sera encadré sur le plan scientifique par Antoine Boutet (Insa-Lyon / Inria). Il ou elle sera sera intégré au pôle innovation et données de la direction des services numériques de l'AP-HP sous la responsabilité de Clément Henin (AP-HP), JACOB Yannick (AP-HP).

Compétences

Effectuer une thèse est une chance, il faut cependant s'assurer d'avoir le bon profil pour cette expérience. Sans parler des compétences techniques nécessaires, voici une liste (non exhaustive) de compétences utiles pour l'aventure :

- autonome et intéressé
- curieux, créatif
- savoir communiquer
- rigoureux

Avantages

- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
- Possibilité de télétravail 90 jours/an fixes ou flottants et aménagement du temps de travail
- Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
- Prestations sociales, culturelles et sportives (Association de gestion des oeuvres sociales d'Inria)
- Accès à la formation professionnelle
- Participation Protection Sociale Complémentaire sous conditions

Rémunération

2 200 euros brut /mois

A propos d'Inria

Inria est l'institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 215 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3900 scientifiques pour relever les défis du numérique, souvent à l'interface d'autres disciplines. L'institut fait appel à de nombreux talents dans plus d'une quarantaine de métiers différents. 900 personnels d'appui à la recherche et à l'innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 200 start-up. L'institut s'eorce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie.

Publiée le 17/09/2025 - Réf : fd1ab924af522143d34084862ea46dc6

Doctorant Évaluation des Risques Liés au Partage de Modèles d'IA Issues d'Un Eds H/F

INRIA
  • Lyon - 69
  • CDD
Publiée le 17/09/2025 - Réf : fd1ab924af522143d34084862ea46dc6

Finalisez votre candidature

sur le site du recruteur

Créez votre compte pour postuler

sur le site du recruteur !

Ces offres pourraient aussi
vous intéresser

UTWIN recrutement
UTWIN recrutement
Lyon 9e - 69
CDI
40 000 - 45 000 € / an
Télétravail partiel
Voir l’offre
il y a 17 jours
Boralex recrutement
Boralex recrutement
Lyon - 69
CDI
Télétravail partiel
Voir l’offre
il y a 5 jours
Michelin recrutement
Michelin recrutement
Lyon - 69
CDI
65 000 - 66 000 € / an
Voir l’offre
il y a 13 jours
Voir plus d'offres
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Application Android (nouvelle fenêtre) Application ios (nouvelle fenêtre)
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact