Détail du poste
Établissement : Université Grenoble Alpes École doctorale : ISCE - Ingénierie pour la Santé la Cognition et l'Environnement Laboratoire de recherche : Translational Innovation in Medicine and Complexity Direction de la thèse : Sandrine VOROS ORCID 0000000274182367 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-19T23:59:59 L'hypertrophie bénigne de la prostate (HPB) touche jusqu'à 50 % des hommes de plus de 60 ans et constitue une cause fréquente de symptômes urinaires obstructifs. Recommandée par l'Association Européenne d'Urologie comme traitement de l'HPB, l'énucléation prostatique au laser Holmium (HoLEP) est une intervention endoscopique mini-invasive techniquement exigeante dont la maîtrise repose sur le compagnonnage, sans critère objectif de progression. Cette situation a conduit certains centres à abandonner la technique en cours d'apprentissage dans une étude multicentrique prospective [1]. Atteindre la maîtrise de ce geste nécessite entre 20 et 350 cas selon les critères retenus [2, 3]. Bien que les simulateurs soient de plus en plus recommandés par les sociétés savantes et les instances pour l'apprentissage de la chirurgie, leur validité prédictive pour des interventions complexes comme la HoLEP n'est pas encore démontrée. Le geste central - identifier et suivre le plan de clivage adénome/capsule - conditionne directement les résultats fonctionnels et les complications.
Au CHU Grenoble Alpes, la thèse de Clément Sarrazin (1A Edisce), urologue au CHUGA, formalise la procédure sous forme de modèle de processus chirurgical (SPM) et constitue un corpus de vidéos annotées en phases et étapes. Ces annotations capturent la structure macroscopique, mais pas les informations visuelles comme l'orientation de l'endoscope, la qualité d'exposition ou les plans opératoires. Les conditions visuelles propres au HoLEP - artefacts de saturation dus au laser, fumée, irrigation continue, faible texture tissulaire de la capsule prostatique - diffèrent fondamentalement de celles d'autres interventions endoscopiques pour lesquelles des méthodes d'analyse automatique existent (e.g. cholécystectomie laparoscopique [4]), rendant le transfert direct de modèles pré-entraînés problématique [5].
Cette thèse s'appuie sur les travaux de l'équipe GMCAO du laboratoire TIMC en prédiction de la qualité d'exposition chirurgicale, constitution de datasets multimodaux, feedback formatif et détection de déviations opératoires [6-11], et les étend à HoLEP dans un cadre faiblement supervisé. Trois objectifs structurent le travail : (i) reconnaissance robuste des phases et étapes chirurgicales ; (ii) apprentissage de représentations visuelles de l'état opératoire sans annotation spatiale dense ; (iii) identification de segments atypiques par modélisation de la distribution experte et analyse de la variabilité temporelle, confrontée à l'analyse de l'expert clinicien partenaire.
La collaboration entre le doctorant scientifique et le doctorant clinicien assurera la pertinence clinique tout au long du projet, notamment lors de la validation des segments atypiques. Ce travail s'inscrit dans la surgical data science [5] et vise des contributions méthodologiques applicables au-delà du HoLEP, en réponse aux besoins des cliniciens pour standardiser la qualité des gestes médico-chirurgicaux. Le traitement de l'hypertrophie bénigne de la prostate constitue un enjeu majeur de santé publique, en particulier dans les sociétés vieillissantes. L'énucléation endoscopique laser (HoLEP), technique mini-invasive de référence, reste techniquement exigeante et son apprentissage repose essentiellement sur le compagnonnage, avec un manque de standardisation, justifiant le développement d'outils automatiques pour analyser et améliorer sa formation.
La segmentation des vidéos en phases et étapes chirurgicales permet de structurer le workflow, d'identifier les gestes critiques et de servir de base pour l'analyse automatique de la qualité de l'exécution. Depuis les travaux fondateurs d'EndoNet [4], les architectures ont évolué des TCN [12,13] vers des architectures plus avancées intégrant des mécanismes d'attention et de mémoire [14,15], atteignant des performances élevées sur les benchmarks de cholécystectomie. Leur adaptation au HoLEP, avec ses spécificités visuelles (artefacts laser, fumée, irrigation, faible texture tissulaire), constitue un premier verrou technique. L'identification des déviations opératoires [6] et l'analyse du comportement chirurgical [5] à partir des séquences permettent de caractériser la qualité de l'exécution et d'identifier les gestes critiques ou atypiques, informations essentielles pour la formation et l'évaluation [7]. Cependant, cette structuration macroscopique du workflow ne permet pas de caractériser finement la qualité du geste ni les variations intra-phase/étape de l'exécution chirurgicale.
L'apprentissage de représentations visuelles à partir de vidéos chirurgicales permet une représentation plus fine de l'exécution chirurgicale. Cependant, il est rendu difficile par le coût des annotations [11] et la variabilité visuelle, notamment dans le contexte de l'endoscopie laser HoLEP (artefacts lumineux, faible texture tissulaire). Des approches faiblement supervisées exploitent des labels parcimonieux pour guider l'apprentissage de zones discriminantes [16] tandis que des méthodes auto supervisées tirent parti de la cohérence spatiale et temporelle des vidéos pour générer des embeddings visuels riches sans annotation dense [17, 18, 19]. Ces représentations peuvent être interprétées comme des embeddings spatio-temporels de segments vidéo, projetés dans un espace latent continu structuré. Elles peuvent ensuite servir d'outils pour l'analyse de la qualité du geste, la détection de segments atypiques ou la construction de scénarios pédagogiques, offrant une alternative aux approches entièrement supervisées dans le domaine chirurgical.
Contributions antérieures : L'équipe GMCAO du laboratoire TIMC s'intéresse depuis de nombreuses années à la compréhension de l'expertise en chirurgie mini-invasive et à l'aide à l'apprentissage du geste : prédiction de la qualité d'exposition chirurgicale à partir de features spatiales et procédurales [9], explication de ces prédictions à des experts cliniques [10], constitution d'un dataset multimodal pour l'évaluation de la pratique (LapEx [11]), génération de feedback formatif [9] et détection de déviations opératoires [7]. Ces contributions servent de fondation pour l'extension à la chirurgie HoLEP explorée dans cette thèse. Concevoir et développer des approches méthodologiques pour l'analyse de vidéos chirurgicales appliquées à la compréhension et à la modélisation de la technique HoLEP, technique d'endoscopie laser recommandée pour la chirurgie de l'hypertrophie bénigne de la prostate. Année 1 - Modélisation du workflow et analyse hiérarchique (phases/étapes)
L'objectif sera d'établir le cadre de travail pour l'analyse temporelle des vidéos HoLEP, en s'appuyant sur le modèle de processus chirurgical (SPM) défini en phases et étapes par le doctorant clinicien. Les méthodes de l'état de l'art en reconnaissance de workflow chirurgical (TCN, transformers) seront implémentées et adaptées au contexte HoLEP [12-15], avec une approche multi-tâches exploitant la hiérarchie phases/étapes. Les performances seront évaluées quantitativement et qualitativement avec la participation du clinicien référent. En parallèle, un travail de cadrage méthodologique et de revue de littérature sera mené afin d'identifier les approches pertinentes pour l'encodage des segments vidéo en vue des travaux de l'année 2.
Année 2 - Apprentissage de représentations du geste chirurgical
La deuxième année constitue vise à dépasser la seule structuration en phases et étapes afin de mieux caractériser la variabilité de l'exécution chirurgicale. L'objectif sera d'apprendre des représentations des segments vidéo décrivant le geste opératoire, permettant de projeter chaque segment dans un espace de représentation continu dans lequel les similarités et différences entre exécutions peuvent être analysées. Ces représentations seront construites à partir des vidéos structurées issues de l'année 1.
Deux familles d'approches seront explorées pour l'apprentissage de ces représentations. La première repose sur l'exploitation de signaux de supervision faible, notamment les labels de phases et d'étapes et des annotations spatiales parcimonieuses, afin d'induire des représentations discriminantes du geste. La seconde s'appuie sur des approches auto-supervisées exploitant la cohérence temporelle et visuelle des séquences vidéo pour apprendre des descripteurs sans annotation fine.
Cet espace de représentation permettra de modéliser la référence de comportement opératoire issue du corpus expert et d'analyser la variabilité intra- et inter-procédure. Chaque segment pourra ainsi être comparé à des comportements de référence afin de caractériser des patterns typiques ou atypiques d'exécution.
Année 3 - Exploitation des représentations et validation de leur pertinence clinique
La troisième année vise à exploiter les représentations apprises au cours des années précédentes afin de les intégrer dans des outils d'analyse et d'aide à la formation en chirurgie HoLEP. L'analyse reposera sur la comparaison des segments opératoires à la structure et aux représentations apprises à partir du corpus expert, considéré comme référence de pratique standard. Les écarts à cette référence permettront d'identifier des variations intra-procédure et des segments atypiques au sein de l'exécution chirurgicale.
Une étape centrale consistera en la validation de la pertinence clinique des résultats en collaboration avec le doctorant urologue (et éventuellement d'autres experts du domaine), afin d'interpréter les segments identifiés comme atypiques et de distinguer la variabilité normale liée au contexte opératoire des écarts potentiellement significatifs du point de vue de la qualité du geste.
Dans une perspective applicative, ces analyses pourront être intégrées (travail porté principalement par le doctorant clinicien) dans un prototype d'aide à la formation, permettant la visualisation de cas cliniques et la génération de retours structurés à destination des apprenants. Cela permettra d'explorer la faisabilité d'un outil de feedback pédagogique fondé sur les représentations apprises, en lien avec le modèle de processus chirurgical (SPM).
Le profil recherché
Compétences indispensables :
- Maîtrise avancée de Python et PyTorch (entraînement, débogage, GPU distribué).
- Bases solides en apprentissage profond appliqué à la vision par ordinateur ou aux séquences temporelles.
- Capacité à lire et réimplémenter des articles de recherche récents de manière autonome.
- Environnement Linux, Git
- Intérêt marqué pour les applications médicales et goût pour le travail interdisciplinaire avec des cliniciens.
- Rigueur, autonomie et appréciation du travail en équipe
Compétences appréciées :
- Expérience pratique / projets déjà réalisés en deep learning avec des modèles de vision ou de séquences
Publiée le 21/04/2026 - Réf : 4e817ae4bdc8e7f268a9d54cdf479c1d