Aller au contenu principal

Thèse Apprentissage de Représentations d'Images Informé par la Spatialité et la Sémantique des Scènes H/F

Doctorat.Gouv.Fr

  • Paris - 75
  • CDD
  • Bac +5
  • Service public d'état
Lire dans l'app

Détail du poste

Établissement : Université Paris Cité
École doctorale : Ecole Doctorale d'Informatique, Télécommunications et Electronique
Laboratoire de recherche : Laboratoire d'Informatique Paris Descartes
Direction de la thèse : Camille KURTZ ORCID 0000000192547537
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-01T23:59:59

Ce projet doctoral est ancré dans les domaines de la vision par ordinateur et de la reconnaissance des formes. Analyser et interpréter une image numérique est une tâche qui consiste à extraire des informations visuelles à partir de son contenu au moyen d'algorithmes et de méthodes informatiques. Le fil conducteur de ce projet repose sur la définition de représentations d'images de plus haut niveau, plus proches de la perception humaine d'une scène imagée. Les représentations d'images sont une des clés essentielles de la vision artificielle car elles permettent, à travers de nouveaux espaces de représentation des données visuelles, d'améliorer la capacité des algorithmes à raisonner pour différentes tâches de traitement et d'analyse (e.g. segmentation, reconnaissance, classification), avec comme objectif ultime de réduire le fossé sémantique entre les caractéristiques de bas niveau extraites des pixels et la façon dont les humains interprètent les images. Nous abordons ici cette question principalement sous l'angle de la recherche d'images similaires par le contenu (CBIR), où l'on dispose d'une image «requête» et l'on souhaite interroger le contenu d'une base de données pour retrouver des images comportant des caractéristiques visuelles communes. Si les approches classiques, largement fondées sur l'optimisation de réseaux de neurones convolutionnels (CNNs) et maintenant de Transformers, permettent d'obtenir des résultats à l'état de l'art dans différentes situations, elles souffrent néanmoins de certaines limites, en particulier lors de l'analyse de scènes complexes (e.g. composées d'objets multiples et portant une sémantique riche), pouvant conduire à des résultats qui ne sont pas toujours pertinents pour les besoins applicatifs de l'utilisateur (problème de l'intention gap). Ces limites sont principalement dues aux stratégies employées pour optimiser les modèles neuronaux, qui conduisent à des représentations ne prenant pas suffisamment en compte la richesse de la structure spatiale et de la sémantique des objets composant la scène. Souvent fortement supervisée (comme l'apprentissage d'un modèle neuronal pour une tâche de classification), ces approches nécessitent par ailleurs, pour l'entraînement, une masse importante d'images annotées afin d'apprendre un modèle généralisable.
Dans ce projet doctoral, nous proposons (1) d'explorer et de définir de nouvelles stratégies pour modéliser des relations spatiales composites dans une scène, pouvant être employées pour apprendre des représentations visuelles qui intègrent des informations de positions relatives complexes entre couples de régions (et interne à chaque région) et (2) d'étudier la manière d'intégrer des informations sémantiques a priori (issues par exemple d'ontologies) pour contrôler plus finement l'optimisation des représentations issues des modèles neuronaux, conduisant à des descriptions plus fines des scènes considérées.
L'objectif ultime est ainsi d'aller vers des modèles génériques de «fondation», permettant, à partir d'une image d'entrée, de produire des vecteurs résultants (embeddings) informés par la spatialité et la sémantique des scènes et pouvant être déployés pour une large variété de tâches de vision par ordinateur.

Un premier verrou scientifique réside dans la modélisation des relations spatiales et sémantiques entre des objets imagées. Freeman a défini un groupe de 13 relations spatiales (dont certaines ont été déclinées par la suite) qui font référence depuis 1970. Au sein de l'équipe Systèmes Intelligents de Perception (SIP) du LIPADE, nous avons défini dans des travaux fondateurs, de nouveaux modèles théoriques pour représenter de nouvelles relations spatiales complexes comme l'enlacement et l'entrelacement [Clé17] qui élargissent ces modèles initiaux, dans la lignée des descripteurs de positions relatives comme l'histogramme de forces [Mat99]. Un premier axe de recherche sera d'étendre ces relations pour proposer de nouveaux groupements de relations spatiales en lien avec l'imbrication de couples d'objets pouvant être composées, pour chacun d'eux, de plusieurs composantes connexes. Concernant l'aspect sémantique, notre axe d'étude reposera sur l'usage d'ontologies permettant de modéliser des connaissances et des relations sémantiques (hyperonymie, synonymie, etc.) entre les labels pouvant caractériser les objets de la scène.

Un second verrou scientifique repose sur l'intégration de telles informations spatiales et sémantiques pour guider l'optimisation de modèles neuronaux conduisant à l'apprentissage de représentations d'images. Ce verrou a été récemment étudié dans notre équipe en entraînant un CNN via une prise en compte dans la fonction de perte d'informations spatiales entre les objets segmentés. Ces travaux ont conduit à des résultats prometteurs [Ser25, Ser26], surpassant l'état de l'art, mais les modèles ne sont valables que pour des paires d'objets et pour un seul type de relations spatiales (bandeau de forces) ce qui nécessite un a priori sur le contenu des images et les configurations spatiales reconnaissables (avec des données étiquetées dans ce sens). Notre ambition est ici d'explorer ce verrou sous l'angle de l'apprentissage de représentations en couplant sémantique et informations spatiales pour être en mesure de comparer des scènes comportant des nombres variés d'objets et des configurations spatiales complexes. De manière plus générale, nos objectifs s'inscrivent dans une tendance actuelle en IA visant à baisser le niveau de supervision des algorithmes (e.g. approches faiblement / auto-supervisées) afin de minimiser l'emploi de masses de données annotées et l'a priori sur les classes reconnaissables.

Les contributions scientifiques et applicatives porteront principalement sur des problématiques liées à l'analyse de scènes structurées (à partir d'images naturelles), à l'imagerie médicale et à la télédétection.

Le but de cette thèse est de proposer un cadre unifiant permettant d'intégrer des informations sémantiques et spatiales pour guider / contrôler plus finement l'optimisation de modèles neuronaux, conduisant à l'apprentissage de représentations d'images de plus haut niveau. Il s'agit d'un problème de plus en plus abordé en vision par ordinateur, par exemple sous la tâche de la reconnaissance de triplets (sujet, prédicat, objet) [Dai2017, Pey2017] ou de Visual Question Answering (VQA) [Che24] par l'intermédiaire de modèles vision-langage (VLM). Ces développements ont été rendus possibles par la constitution de grandes bases de données annotées contenant des relations visuelles comme Visual Genome [Kri17], SpatialSense [Yan19] ou VSR [Liu23]. Bien que ces approches constituent des avancées notables, elles restent limitées pour la description de scènes structurées car elles reposent sur des objets (sémantiques) décrits par leurs labels et localisés par leur boîte englobante (ou leur barycentre), et par l'usage de stratégies d'entraînement qui prennent difficilement en compte les relations spatiales complexes entre les objets. Bien qu'appréhendées de manière implicite, les relations spatiales et sémantiques entre les différents objets d'intérêt composant une scène jouent un rôle primordial dans notre perception de celle-ci. Souvent définies de manière imprécise et ambiguë, leur exploitation dans des processus de reconnaissance automatisés demeure aujourd'hui délicate [Wan23] et assurément insuffisante pour combler ce qui est souvent désigné dans la littérature par le terme de fossé sémantique.

Le travail de thèse consistera à étudier comment des informations sémantiques et spatiales peuvent être employées pour contraindre l'entraînement d'un modèle neuronal (comme un Transformer), prenant en entrée des images, via des stratégies de supervision différentes de celles classiquement employées.

Le travail demandé se décomposera en trois étapes principales :
1. Une première étape sera axée sur la modélisation de la configuration spatiale des objets composant une scène, de manière à pouvoir quantifier la ressemblance entre deux images. Pour ce faire, les travaux pourront débuter par l'étude des descripteurs de formes et de positions relatives, récemment proposés par l'équipe SIP [Del22], et leur extension à des notions d'élasticité voire d'espacement entre paires d'objets imagés. Les images naturelles représentant fréquemment des scènes / environnements 3D complexes, des informations de profondeur (générées via des modèles comme Depth Anything [Yan24]) pourront également être intégrées dans la modélisation des descripteurs de position relative proposés. Dans ces travaux, nous élargirons le nombre de relations spatiales de 1 à N (dans la même veine que le Phi-descripteur [Mat16]), ainsi que des relations ternaires, en intégrant une quantification de la «confiance» sur la présence de la relation spatiale ou des quantificateurs linguistiques entre régions. Concernant la phase de segmentation, ces recherches pourront s'appuyer sur des modèles génériques de l'état de l'art comme Dino [Oqu24] ou Segment Anything [Rav25]. La sémantique des objets de l'image pourra également être prise en compte a priori, à l'instar des approches de détection de triplets comme [Dai17] qui prennent en compte des caractéristiques linguistiques données par la nature des objets et leur configurations habituelles (e.g. une chaise est généralement sous un bureau).

2. Une deuxième étape sera liée à l'entraînement des réseaux de neurones à partir de ces informations via l'exploration de différentes stratégies d'apprentissage. Nous proposons dans un premier temps d'exploiter des fonctions de coût contrastives ou triplet loss pour apprendre aux modèles à rassembler des configurations spatiales et sémantiques similaires et à éloigner les exemples dissimilaires, cette notion de similarité pouvant être quantifiée à partir de descripteurs de positions relatives (issues de la première étape de travail) et de la sémantique des objets [Ram22], sur un jeu d'entraînement. Dans un second temps (et de manière plus exploratoire), nous étudierons l'intérêt des approches génératives comme I-JEPA [Ass23] (proposé par Yann LeCun) pour optimiser les modèles, de manière auto-supervisée, directement dans l'espace de représentation sans recourir à l'emploi de décodeurs plus coûteux computationnellement. Des tâches prétexte fortement spatialisées et sémantisées pourront ici être étudiées.

3. Une dernière étape sera liée à la modélisation des scènes à partir de graphes de régions, dans la continuité de [Clé18]. À partir de graphes de régions caractérisés issus des premières étapes (arêtes valuées par des informations spatiales et noeuds par des informations sémantiques), il s'agira ensuite d'apprendre automatiquement de nouvelles représentations d'images (embeddings) en étudiant l'usage des Graph neural networks. L'objectif principal sera de découvrir automatiquement, à partir des données, quelles sont les relations spatiales les plus pertinentes pour caractériser une scène (ou une base de scènes) via une transcription sémantique des différentes relations calculée en fonction de l'agencement des régions.

Le profil recherché

Le candidat doit avoir de très bonnes connaissances dans les domaines de la reconnaissance des formes et de la vision artificielle / apprentissage profond. Il doit aussi avoir un excellent niveau en programmation (par exemple en C, C++ et Python). Une très bonne aptitude à la communication (orale, écrite) en anglais est également attendue.

Publiée le 11/04/2026 - Réf : 3890a09f123d19287a909dd914f71556

Thèse Apprentissage de Représentations d'Images Informé par la Spatialité et la Sémantique des Scènes H/F

Doctorat.Gouv.Fr
  • Paris - 75
  • CDD
Postuler sur le site du partenaire Publiée le 11/04/2026 - Réf : 3890a09f123d19287a909dd914f71556

Finalisez votre candidature

sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Safran recrutement
Safran recrutement
Voir l’offre
il y a 27 jours
Eviden recrutement
Eviden recrutement
Voir l’offre
il y a 11 jours
Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact