Détail du poste
Établissement : Université Grenoble Alpes École doctorale : EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal Laboratoire de recherche : Grenoble Images Parole Signal Automatique Direction de la thèse : Denis BEAUTEMPS ORCID 0000000196253018 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-31T23:59:59 La reconnaissance automatique de la langue des signes française (LSF) et sa traduction vers le français écrit constituent un défi scientifique majeur. Contrairement aux langues écrites, la langue des signes repose sur un signal visuel continu mobilisant simultanément les mains, le visage et le corps. Plusieurs difficultés spécifiques compliquent cette tâche : la présence de signes plus ou moins lexicalisés, la segmentation des séquences en unités linguistiques, les différences syntaxiques entre la LSF et le français, ainsi que la nécessité de convertir directement une séquence vidéo en texte. Les travaux fondateurs de Necati Cihan Camgöz ont montré l'intérêt des architectures encodeur-décodeur basées sur les Transformers pour la traduction automatique de la langue des signes. En particulier, l'utilisation d'une représentation intermédiaire sous forme de gloses améliore significativement les performances par rapport à une traduction directe de la vidéo vers le texte. Ces approches ont principalement été évaluées sur le corpus RWTH-PHOENIX-Weather 2014, constitué de vidéos en langue des signes allemande dans un contexte lexical relativement contraint. Dans le cas de la LSF, les travaux menés au LISN et au GIPSA-lab ont mis en évidence la richesse linguistique des données, avec une proportion importante de signes non lexicaux ou illustratifs. Des modèles de reconnaissance exploitant les coordonnées 3D issues de MediaPipe Holistic et des architectures récurrentes ou multi-flux ont permis d'obtenir des résultats encourageants pour la reconnaissance des signes lexicaux. Parallèlement, la base de données MediaPi-RGB, composée de plus de 80 heures de vidéos sous-titrées en LSF, offre un cadre particulièrement favorable au développement de modèles de traduction à grande échelle. L'objectif de cette thèse est de concevoir de nouvelles méthodes de reconnaissance et de traduction de la LSF vers le français écrit en s'appuyant sur des architectures neuronales avancées. Un premier axe consistera à approfondir les méthodes de clusterisation automatique (K-means, auto-encodeurs, etc.) afin de regrouper des formes de signes similaires et de produire des représentations intermédiaires facilitant l'apprentissage. Ces représentations seront intégrées dans des architectures encodeur-décodeur à base de Transformers pour améliorer la traduction signes-vers-texte. Un second axe portera sur l'analyse des représentations internes des modèles afin de mieux comprendre les correspondances entre clusters, caractéristiques spatio-temporelles et catégories linguistiques de signes. La thèse explorera également des approches de Few-Shot Learning, en particulier les réseaux prototypiques, afin d'améliorer la reconnaissance des signes rares ou faiblement représentés dans les corpus, dans un contexte de distribution à longue queue du vocabulaire gestuel. Enfin, l'utilisation de modèles de langage de grande taille (LLM) et de modèles visuo-linguistiques sera étudiée pour régulariser et améliorer la qualité du texte généré. Ce travail contribuera ainsi au développement de systèmes robustes et extensibles de traduction automatique de la LSF, capables de mieux prendre en compte la diversité linguistique des productions signées dans des conditions réalistes. La thèse se déroulera au sein de la nouvelle équipe PICSA du GIPSA-lab, spécialisée dans le traitement des images et des signaux. Le projet de thèse bénéficie d'une collaboration nationale avec le LISN qui s'est instaurée depuis 5 années avec notamment la co-direction de la thèse de Yanis Ouakrim (2021-2025) et qui se poursuit avec le projet en cours Gest2Say (contexte de financement par l'ANR pour 4 ans, début 01/01/2026).
A partir de la base de données existante MEDIAPI-RGB, il s'agira tout d'abord d'explorer les espaces de plongement des primitives d'image les plus pertinents pour la reconnaissance des signes. Puis intégrer ces représentations dans des architectures encodeur-décodeur signe vers texte. Le projet pourra s'inspirer des architectures de Camgoz et collègues bien maitrisées au GIPSA-lab. Les annotations annotations linguistiques complétées par des regroupements automatiques (clusters) plus denses pourront être intégrées dans ces architectures. Puis ancrer les résultats avec l'exploration des espaces internes des modèles. Les résultats à ces différentes étapes pourront être valorisées par des publications dans les meilleures conférences internationales IEEE du domaine et des revues scientifiques. Les méthodes en apprentissage profond pour le traitement de séquences de bout en bout seront utilisées. De plus, il s'agira d'explorer les approches en Few-shot Learning pour prendre en compte les données de signe à peu d'exemples.
Le profil recherché
Publiée le 12/05/2026 - Réf : 42ad79c8769a76e013bbecc2f26d10e0