Aller au contenu principal

Thèse Reconnaissance et Traduction de la Langue des Signes Française Lsf à l'Aide de Réseaux Prototypiques en Apprentissage à Peu d'Exemples Few-Shot Prototypical Networks H/F

Doctorat.Gouv.Fr

  • Grenoble - 38
  • CDD
  • Bac +5
  • Service public d'état
Lire dans l'app

Détail du poste

Établissement : Université Grenoble Alpes École doctorale : EEATS - Electronique, Electrotechnique, Automatique, Traitement du Signal Laboratoire de recherche : Grenoble Images Parole Signal Automatique Direction de la thèse : Denis BEAUTEMPS ORCID 0000000196253018 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-31T23:59:59 La reconnaissance automatique de la langue des signes française (LSF) et sa traduction vers le français écrit constituent un défi scientifique majeur. Contrairement aux langues écrites, la langue des signes repose sur un signal visuel continu mobilisant simultanément les mains, le visage et le corps. Plusieurs difficultés spécifiques compliquent cette tâche : la présence de signes plus ou moins lexicalisés, la segmentation des séquences en unités linguistiques, les différences syntaxiques entre la LSF et le français, ainsi que la nécessité de convertir directement une séquence vidéo en texte. Les travaux fondateurs de Necati Cihan Camgöz ont montré l'intérêt des architectures encodeur-décodeur basées sur les Transformers pour la traduction automatique de la langue des signes. En particulier, l'utilisation d'une représentation intermédiaire sous forme de gloses améliore significativement les performances par rapport à une traduction directe de la vidéo vers le texte. Ces approches ont principalement été évaluées sur le corpus RWTH-PHOENIX-Weather 2014, constitué de vidéos en langue des signes allemande dans un contexte lexical relativement contraint. Dans le cas de la LSF, les travaux menés au LISN et au GIPSA-lab ont mis en évidence la richesse linguistique des données, avec une proportion importante de signes non lexicaux ou illustratifs. Des modèles de reconnaissance exploitant les coordonnées 3D issues de MediaPipe Holistic et des architectures récurrentes ou multi-flux ont permis d'obtenir des résultats encourageants pour la reconnaissance des signes lexicaux. Parallèlement, la base de données MediaPi-RGB, composée de plus de 80 heures de vidéos sous-titrées en LSF, offre un cadre particulièrement favorable au développement de modèles de traduction à grande échelle. L'objectif de cette thèse est de concevoir de nouvelles méthodes de reconnaissance et de traduction de la LSF vers le français écrit en s'appuyant sur des architectures neuronales avancées. Un premier axe consistera à approfondir les méthodes de clusterisation automatique (K-means, auto-encodeurs, etc.) afin de regrouper des formes de signes similaires et de produire des représentations intermédiaires facilitant l'apprentissage. Ces représentations seront intégrées dans des architectures encodeur-décodeur à base de Transformers pour améliorer la traduction signes-vers-texte. Un second axe portera sur l'analyse des représentations internes des modèles afin de mieux comprendre les correspondances entre clusters, caractéristiques spatio-temporelles et catégories linguistiques de signes. La thèse explorera également des approches de Few-Shot Learning, en particulier les réseaux prototypiques, afin d'améliorer la reconnaissance des signes rares ou faiblement représentés dans les corpus, dans un contexte de distribution à longue queue du vocabulaire gestuel. Enfin, l'utilisation de modèles de langage de grande taille (LLM) et de modèles visuo-linguistiques sera étudiée pour régulariser et améliorer la qualité du texte généré. Ce travail contribuera ainsi au développement de systèmes robustes et extensibles de traduction automatique de la LSF, capables de mieux prendre en compte la diversité linguistique des productions signées dans des conditions réalistes. La thèse se déroulera au sein de la nouvelle équipe PICSA du GIPSA-lab, spécialisée dans le traitement des images et des signaux. Le projet de thèse bénéficie d'une collaboration nationale avec le LISN qui s'est instaurée depuis 5 années avec notamment la co-direction de la thèse de Yanis Ouakrim (2021-2025) et qui se poursuit avec le projet en cours Gest2Say (contexte de financement par l'ANR pour 4 ans, début 01/01/2026).
A partir de la base de données existante MEDIAPI-RGB, il s'agira tout d'abord d'explorer les espaces de plongement des primitives d'image les plus pertinents pour la reconnaissance des signes. Puis intégrer ces représentations dans des architectures encodeur-décodeur signe vers texte. Le projet pourra s'inspirer des architectures de Camgoz et collègues bien maitrisées au GIPSA-lab. Les annotations annotations linguistiques complétées par des regroupements automatiques (clusters) plus denses pourront être intégrées dans ces architectures. Puis ancrer les résultats avec l'exploration des espaces internes des modèles. Les résultats à ces différentes étapes pourront être valorisées par des publications dans les meilleures conférences internationales IEEE du domaine et des revues scientifiques. Les méthodes en apprentissage profond pour le traitement de séquences de bout en bout seront utilisées. De plus, il s'agira d'explorer les approches en Few-shot Learning pour prendre en compte les données de signe à peu d'exemples.

Le profil recherché

Cette thèse nécessite une bonne maîtrise de l'écosystème Python dédié à l'apprentissage profond, en particulier des bibliothèques Keras, PyTorch et TensorFlow, ainsi qu'une capacité à intégrer, comprendre et adapter des codes de recherche. De solides compétences rédactionnelles en français et en anglais scientifique, ainsi qu'une aisance à l'oral, sont également attendues. Le/la candidat.e doit avoir un bagage solide en mathématiques, statistique et informatique appliqués à l'Intelligence Artificielle et à l'Apprentissage Profond. La connaissance de la langue des signes française (LSF) et une expérience préalable dans le domaine du traitement automatique des langues des signes constituent un atout, sans être indispensables. Des formations spécifiques pourront être suivies au cours de la thèse. Il est cependant nécessaire pour le/la candidat.e d'avoir un fort intérêt pour la LSF.

Publiée le 12/05/2026 - Réf : 42ad79c8769a76e013bbecc2f26d10e0

Finalisez votre candidature

sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Voir plus d'offres
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact