Pas de salaire renseigné
Thèse Apprentissage de Représentations Multimodales pour l'Aide à la Décision dans le Cancer du Sein à Partir d'Images et de Données Cliniques H/F
Télécom Paris
- Paris - 75
- CDD
- Bac +5
- Service public d'état
Détail du poste
Établissement : Télécom Paris
École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris
Laboratoire de recherche : Laboratoire de Traitement et Communication de l'Information
Direction de la thèse : Maxime DI FOLCO
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-08-31T23:59:59
La prise de décision clinique en oncologie repose de plus en plus sur l'intégration de
sources de données hétérogènes, en particulier l'imagerie médicale et les données cliniques
structurées [1]. Dans le cancer du sein, par exemple, l'évaluation repose couramment sur
des modalités d'imagerie telles que la mammographie, l'échographie ou l'IRM, ainsi que sur
des variables cliniques incluant les caractéristiques démographiques des patientes, les
comorbidités et l'historique des traitements [2]. Bien que l'apprentissage profond ait
considérablement fait progresser l'analyse basée sur l'image, les données cliniques
structurées - généralement stockées sous forme tabulaire - restent sous-exploitées dans
l'IA médicale multimodale, malgré leur rôle essentiel dans la prise de décision réelle.
Les travaux récents se concentrent principalement sur les modèles vision-langage
combinant encodeurs d'images et grands modèles de langage (LLMs). Cependant, ces
architectures sont souvent mal adaptées aux données tabulaires cliniques, qui contiennent
des variables continues, des valeurs manquantes, ainsi qu'une structure ordinale ou
catégorielle que les LLM ne traitent pas naturellement [3]. De plus, les méthodes les plus
avancées sont fréquemment évaluées sur de larges jeux de données fortement standardisés
et peinent à se généraliser à des contextes réels caractérisés par de petits effectifs, des
cohortes hétérogènes, des suivis incomplets et des annotations irrégulières [4-5].
En oncologie, ces limitations sont particulièrement problématiques. De nombreuses tâches
de prédiction - telles que l'évaluation BI-RADS, le grading tumoral ou la stratification du
risque - impliquent des labels ordinaux et requièrent un raisonnement nuancé combinant
imagerie et variables cliniques. Pourtant, les modèles multimodaux actuels négligent
souvent la sémantique des données cliniques tabulaires, réduisant leur contribution à une
concaténation naïve ou une fusion tardive, sans exploiter la structure ordinale et les relations
organisationnelles susceptibles de guider l'apprentissage des représentations.
Cela motive le développement de nouvelles approches d'apprentissage auto-supervisé
(SSL) multimodal capables de combiner de manière robuste les images et les données
cliniques structurées, tout en tenant compte des valeurs manquantes, des structures
sémantiques et des biais de population. De telles représentations doivent être transférables
en contexte clinique, s'adapter aux jeux de données de petite taille ou incomplets, et fournir
des sorties cliniquement pertinentes à travers des groupes de patientes et des institutions
variés.
La prise de décision en oncologie repose de plus en plus sur l'intégration de données
hétérogènes, combinant imagerie médicale et données cliniques structurées. En
cancérologie mammaire, les images (mammographie, IRM, échographie) sont souvent
analysées séparément des informations cliniques, pourtant essentielles pour le diagnostic et
la prédiction du risque. Les modèles actuels de deep learning privilégient l'imagerie ou le
couplage avec du textes, mais restent peu adaptés aux données tabulaires ordinales ou
incomplètes. Il existe donc un besoin crucial de méthodes multimodales capables de tirer
parti de ces deux types de données pour améliorer la précision et la pertinence clinique des
modèles.
L'objectif de cette thèse est de développer de nouvelles méthodes d'apprentissage
auto-supervisé multimodal capables d'intégrer de manière cohérente les images médicales
et les données cliniques. Le travail visera à concevoir des stratégies tenant compte des
spécificités des données tabulaires (valeurs manquantes, variables ordinales, hétérogénéité
patient), tout en améliorant la robustesse des représentations apprises. Il s'agira également
d'explorer des approches sensibles à l'ordre pour mieux modéliser des cibles cliniques
ordinales telles que les catégories BI-RADS ou les grades tumoraux. Enfin, les méthodes
seront évaluées sur divers jeux de données et tâches de dépistage, de caractérisation et de
prédiction du risque en cancérologie mammaire.
La thèse développera des méthodes d'apprentissage auto-supervisé multimodal combinant
imagerie mammaire et données cliniques tabulaires. L'accent sera mis sur la gestion des
valeurs manquantes, des variables ordinales et des déséquilibres, ainsi que sur
l'apprentissage de représentations ordinal-aware adaptées aux labels cliniques (BI-RADS,
grades tumoraux). Des stratégies de fusion et de transfert entre jeux de données seront
explorées pour assurer la robustesse et la généralisation. Les données longitudinales seront
également intégrées pour modéliser la progression de la maladie et le risque de récidive.
Les modèles seront évalués sur la performance, la généralisabilité et la pertinence clinique,
à partir de bases publiques et de cohortes partenaires.
Le profil recherché
ou domaine similaire
Fort intérêt pour l'imagerie médicale et les applications de santé
Expérience pratique avec des frameworks de deep learning (par ex. PyTorch,
TensorFlow)
Solides compétences en programmation (de préférence en Python)
Une familiarité avec l'apprentissage automatique, la vision par ordinateur ou le
traitement de données multimodales est un atout
Très bonnes compétences en communication écrite et orale en anglais
Publiée le 17/03/2026 - Réf : 7e6730d8d645c7fc15c52de121ef1275
Créez votre compte Hellowork et activez votre alerte
Thèse Apprentissage de Représentations Multimodales pour l'Aide à la Décision dans le Cancer du Sein à Partir d'Images et de Données Cliniques H/F
- Paris - 75
- CDD
Finalisez votre candidature
sur le site du
partenaire
Créez votre compte
Hellowork et postulez
sur le site du
partenaire !
sur le site du partenaire
Hellowork et postulez
sur le site du partenaire !
Ces offres pourraient aussi
vous intéresser
Testez votre correspondance
Chargement du chat...
{{title}}
{{message}}
{{linkLabel}}