Thèse Clusterings Évidentiels Répétables et Reproductibles pour une Application en Santé H/F

Doctorat.Gouv.Fr

  • Clermont - 74
  • CDD
  • Service public d'état
Lire dans l'app

Détail du poste

Établissement : Université Clermont Auvergne École doctorale : Sciences pour l'Ingénieur Laboratoire de recherche : LIMOS - Laboratoire d'Informatique, de Modélisation et d'Optimisation des Systèmes Direction de la thèse : VIOLAINE ANTOINE ORCID 0000000209813505 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-06-30T23:59:59 La thèse s'inscrit dans un contexte d'analyse de données longitudinales pour le profilage de patients douloureux chroniques, dans le but d'établir des projections sur l'évolution de la pathologie et ainsi de personnaliser la prise en charge des patients selon leur profil et leur évolution théorique en découlant. Les données en entrée correspondent à des séries temporelles ordinales et multivariées de longueur variables. Ces séries temporelles sont transformées en une suite d'état de manière à mieux identifier des patterns identiques entre patients.

L'objectif de la thèse est de proposer une méthode de clustering adaptée aux données afin de grouper les patients selon des évolutions similaires. Ces groupes doivent ensuite être interprétés via l'utilisation de variables explicatives fourni par le SNDS.

Dans ce contexte applicatif, plusieurs défis scientifiques sont identifiés:
- les données sont intrinsèquement peu séparables en cluster. En effet, les données liées à l'humain impliquent une forte variabilité individuelle et de fréquentes zones de chevauchement entre clusters [1,2]. Afin de distinguer de manière claire les zones de chevauchement de clusters, on pourra utiliser la théorie des fonctions de croyance [3,4].
- inhérent aux grandes cohortes de patients en vie réelle, le nombre de données manquantes est important.
- les méthodes de clustering généralement utilisés dans le domaine médical sont des méthodes linéaires [5]. Or, l'hypothèse de frontière linéaire entre clusters est questionnable [6]. L'utilisation de méthodes non linéaires semblent plus appropriée, mais introduit des problèmes de répétabilité et de reproductibilité liés à la présence de recouvrement en les clusters.

L'idée est donc de proposer des méthodes de clustering non linéaires, robustes, prenant en compte des données temporelles ordinales (ou nominales dans le cas d'une suite d'état), les données manquantes et permettant de représenter clairement les zones de chevauchement entre clusters.

Dans un premier temps, une étude de la répétabilité et de la reproductibilité des algorithmes existants sera réalisée. De nouveaux algorithmes seront ensuite proposés et testées sur des jeux de données synthétiques afin de bien identifier leurs caractéristiques. Enfin, les méthodes seront appliquées au jeu de données médicales. La thèse se déroule au LIMOS, à Clermont-Ferrand. Le sujet est financé par le projet AI4health, une chaire du cluster MIAI, en collaboration entre le LIMOS et l'institut Analgésia, situé au CHU de Clermont-Ferrand, et le LISTIC à Annecy. Des réunions régulières sont prévues avec les deux entités.

Le profil recherché

- Mathématiques appliquées en informatique, statistiques, data mining, machine learning
- programmation (python et/ou matlab)
- bon niveau d'anglais
- autonomie, capacité à travailler en équipe, intérêt pour le domaine appliqué

Publiée le 04/06/2026 - Réf : 4e7fa249cebecedebadb95808a3371db

Postuler
Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Voir plus d'offres
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact