Aller au contenu principal

Thèse Traduction de la Langue des Signes Guidée par le Contexte H/F

Doctorat.Gouv.Fr

  • Paris - 75
  • CDD
  • Bac +5
  • Service public d'état
Lire dans l'app

Détail du poste

Établissement : Université Paris-Saclay GS Informatique et sciences du numérique École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : Laboratoire Interdisciplinaire des Sciences du Numérique Direction de la thèse : Michèle GOUIFFES ORCID 0000000271524640 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 La traduction de la langue des signes française (LSF) vers le français écrit demeure un domaine encore émergent, notamment en raison du manque de données disponibles et de la nature spatio-temporelle, continue et multimodale de ces données (vidéos). Les premières approches, fondées sur des modèles de type Transformers, mettent en évidence de nombreuses ambiguïtés, liées à la fois aux phénomènes de synonymie et d'homonymie, ainsi qu'aux variations inhérentes à la signation.

Cette thèse propose d'explorer des méthodes permettant d'améliorer la qualité de la traduction en intégrant des informations contextuelles, afin de réduire ces ambiguïtés. Plusieurs types de contexte seront étudiés : le contexte immédiat au sein de la vidéo, le contexte historique et géopolitique, ainsi que le contexte de production de la signation, selon qu'il s'agit d'une langue des signes originale ou d'une interprétation depuis le français. Les Langues des Signes (LS) sont des langues naturelles pratiquées par ou avec des personnes sourdes. À la différence des langues vocales, les LS sont visuo-gestuelles et multimodales. L'information est transmise par différents articulateurs (les mains, les bras, le buste, les épaules, la tête, les éléments du visage, le regard) et leurs mouvements. De plus, le discours se structure dans l'espace, qui sert à contextualiser un signe, à placer des objets ou des concepts, à créer des relations visuelles entre ces entités. Ainsi, un énoncé en LS ne
peut pas être réduit à une simple séquence de signes qui aurait un équivalent dans la langue vocale.

Outils pour les langues de signes. Contrairement aux langues écrites et parlées, dotées d'outils de traduction, de moteurs de recherche, d'agent conversationnels, très peu d'outils ont été proposés pour les LS, notamment pour ce qui concerne l'aide à la traduction. Cela s'explique notamment par les difficultés à obtenir les données (vidéos de personnes signantes accompagnées du texte ou de l'audio) nécessaires à l'entraînement des modèles. Données et méthodes pour l'analyse de la LSF. Alors que certaines langues des signes bénéficient de ressources importantes et d'une excellente visibilité dans la communauté internationale, entre autre la LS allemande DGS [10] ou britannique BSL, la plupart des corpus de vidéos de LSF émanent des travaux réalisés au LISN [1, 2, 11, 7] et ont encore été peu étudiés. Une faible partie des vidéos est annotée en unités lexicales (gloses), car il s'agit d'une tâche délicate requérant du temps et de l'expertise linguistique. Ce manque de paires signe lexical-glose rend difficile la conception d'algorithmes d'apprentissage supervisés.

Dans la thèse nous nous intéressons à deux types de données : des vidéos issues d'un média sourd Médiapi [11], qui sont produites en LSF puis sous-titrées en français et des données publiques de discours politiques Matignon-LSF [7] constituées de l'audio (le discours, les questions) et d'une vidéo accompagnée d'un médaillon présentant l'interprétation en LSF. L'une des particularités de ces vidéos est qu'elles couvrent une plage temporelle relativement large (2019-2025) et traitent de sujets politiques et d'actualité, sujets en perpétuelle évolution. Cela constitue un verrou supplémentaire pour les approches de traduction. Ensuite, la LSF interprétée de Matignon-LSF n'est pas alignée avec la parole, ce qui implique des prétraitements additionnels. La traduction consiste ici à générer un texte à partir de vidéos d'énoncés en langue des signes. Les travaux existants s'avèrent encore peu satisfaisants. Un verrou majeur est lié directement à la nature des langues des signes (vidéo en continu, caractère visuo-gestuel et multimodal, utilisation de l'espace). Par conséquent, la plupart des travaux de traduction se focalisent sur des phrases courtes
dans un domaine de spécialité au lexique limité, comme celui des bulletins météo [4]. La plupart des contributions tentent de pallier le manque de données et se focalisent sur les mécanismes d'augmentation [8] ou sur le transfert d'apprentissage d'une langue des signes à une autre [3]. Les LLM (Large Language Models) ont également été exploités [5]. Tout récemment, l'article [9] propose d'intégrer le contexte visuel dans la tâche de traduction dans un contexte de reportages vidéos. L'information visuelle portée par le reportage permet de guider la traduction. La thèse se situe dans une problématique similaire. Nos travaux précédents ont permis [11] de concevoir et tester une première baseline de traduction LSF-français, sur la base d'architecture Transformers. Les premiers résultats ont mis en exergue plusieurs limites, à commencer par la présence d'ambiguïtés liées :
- à la présence d'homosignes (un même signe, plusieurs sens), de synonymes (sens similaire, plusieurs mots) mais également de variantes (un même sens, plusieurs signes). Cette première difficulté encourage la poursuite de travaux de collectes et d'étude des signes.
- à la problématique des entités nommées. Par exemple en LSF, une personne peut être désignée par sa fonction (premier ministre, médecin), son nom en dactylologie (épelé lettre par lettre), son nom-signe (un signe lexical établi pour désigner la personne).

Cette variabilité, étudiée dans [6], est à l'origine de nombreuses erreurs de traduction puisque le même signe premier ministre peut désigner des personnes différentes au fil du temps, ou encore deux premiers ministres de pays différents. Dans les deux cas, l'utilisation du contexte devrait permettre de réduire les ambiguïtés et préserver le sens de l'énoncé dans l'objectif de faire progresser les méthodes de traduction. Nous aborderons différentes formes de contexte :
- le contexte direct, au sein de la vidéo. Les vidéos dont nous disposons contiennent des informations visuelles et textuelles. Celles-ci n'ont pas encore été exploitées dans nos travaux. Il peut s'agir d'un image illustrative, un portrait associé au nom de la personne, une date. Dans le contexte direct, nous considérons également celui des phrases précédentes.
- le contexte historique, c'est-à-dire le contexte associé à la période à laquelle la vidéo se réfère. Ce contexte est géopolitique et lié aux évènements de cette période (les actualités passées).
- le contexte de signation selon que la langue des signes est originale ou interprétée depuis le français.

Certes, les architectures de type Transformers préservent, par les mécanismes d'attention, une part de contexte au sein d'un discours signé. Dans le cadre de cette thèse, il s'agit d'injecter des connaissances sur un contexte plus général, ne se trouvant pas dans le discours signé lui-même, et souvent implicite. Il peut s'agir des dates de l'émission ou du discours et contextes associés : thème général, contexte géopolitique associé, identités des acteurs concernés sur cette période.



Ainsi, l'objectif est de tirer pleinement partie des connaissances issues des domaines de la vision par ordinateur d'une part, du TAL d'autre part pour améliorer la traduction LSF-français. Les axes de travail sont les suivants :
- revue de l'état de l'art sur les modèles de traduction de la langue signée vers la langue écrite;
- extraction automatique d'informations (visuelles, textuelles, audio) dans les vidéos et dans les métadonnées. Celles-ci formeront le contexte direct;
- génération d'un contexte historique (géopolitique notamment). L'usage de LLM (Large Language Models) est envisagé;
- conception d'un modèle de traduction guidé par les différentes formes de contexte;
- expérimentation sur les données existantes [11, 7], comparaison avec l'état de l'art, études ablatives;
- publications et communications.

Le profil recherché

Le candidat idéal a une solide formation en mathématique et en informatique (M2 ou Ingénieur) avec une spécialisation en apprentissage automatique dans le domaine du traitement automatique des langues et/ou de la vision par ordinateur. La personne recrutée sera amenée à reprendre et à développer du code en Python pour l'analyse de données et l'apprentissage (frameworks Tensorow, ou PyTorch). Un bon niveau d'anglais écrit est requis pour la rédaction des articles scientiques et du manuscrit de thèse. Un bon niveau d'anglais ou de français oral est requis pour le travail en équipe.
La maîtrise de la LSF n'est pas requise mais un fort intérêt pour cette langue et pour suivre des cours de LSF est recommandé.

Publiée le 17/04/2026 - Réf : ded09c5758eabcd727e03f89ba276889

Finalisez votre candidature

sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Suresnes - 92
CDD
2 500 € / mois
Voir l’offre
il y a 10 jours
Saint Quentin en Yvelines Agglomération recrutement
Voir l’offre
il y a 23 heures
Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact