Aller au contenu principal

Thèse Apprentissage de Représentations Hybrides Basées sur des Modèles et les Donées pour la Reconnaissance Multimodale des Émotions H/F

Doctorat.Gouv.Fr

  • Paris - 75
  • CDD
  • Bac +5
  • Service public d'état
Lire dans l'app

Détail du poste

Établissement : Université Paris-Saclay GS Sciences de l'ingénierie et des systèmes École doctorale : Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : IBISC - Informatique, BioInformatique, Systèmes Complexes Direction de la thèse : Dro Désiré SIDIBÉ ORCID 0000000258437139 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-12T23:59:59 Les êtres humains se caractérisent par leur capacité à communiquer de manière affective, ce qui joue un rôle crucial dans le domaine de la santé, notamment auprès des personnes âgées ou vulnérables. Améliorer les interactions sociales représente un enjeu majeur de santé publique, car cela peut contribuer à réduire les troubles cognitifs et comportementaux chez les patients tout en allégeant la charge de travail des professionnels de santé.
D'un point de vue computationnel, la compréhension et la modélisation de la communication affective nécessitent l'extraction de représentations pertinentes qui rendent compte de l'état émotionnel de l'interlocuteur.

Dans cette thèse, nous abordons le problème de la reconnaissance des émotions selon deux axes principaux. Premièrement, nous étudions et combinons des approches de traitement du signal déterministes et stochastiques avec des méthodes d'apprentissage profond afin d'obtenir des représentations robustes et complémentaires des signaux émotionnels. Deuxièmement, nous explorons des stratégies de fusion pour intégrer ces représentations hétérogènes issues de multiples modalités, notamment audio, vidéo et physiologiques.

L'étude repose principalement sur trois modalités : la parole émotionnelle, les enregistrements vidéo et des indices d'interaction supplémentaires tels que le regard et le toucher.
Nous adoptons ainsi une approche pluridisciplinaire combinant modélisation mathématique, sciences cognitives et apprentissage automatique. Nous nous concentrons sur deux composantes clés de la communication : (i) la parole émotionnelle, analysée à travers des caractéristiques acoustiques (paralinguistiques) et linguistiques extraites des signaux bruts, et (ii) le regard et les expressions faciales, qui fournissent des indices essentiels lors des interactions et peuvent être capturés par vidéo égocentrique.

L'objectif de cette thèse est de développer de nouvelles méthodes de reconnaissance multimodale des émotions à partir de données audiovisuelles. Sur le plan théorique, nous proposons de nouveaux paradigmes de modélisation pour l'interprétation de ces données. Sur le plan expérimental, nous cherchons à valider nos résultats grâce aux apports des neurosciences. Enfin, sur le plan pratique, nous visons à concevoir des outils capables d'analyser et, potentiellement, de réguler le contenu émotionnel de la communication spontanée, avec des applications dans les domaines de la santé et de l'éducation.
In this thesis, we address the problem of emotion recognition using multimodal data: emotional speech, video recordings, and additional interaction cues such as gaze and touch.
First, we investigate and combine deterministic and stochastic signal processing approaches with deep learning methods in order to derive robust and complementary representations of emotional signals. Second, we explore fusion strategies to integrate these heterogeneous representations across multiple modalities, including audio, video, and physiological signals.

We focus on two key components of communication: (i) emotional speech, analyzed through both acoustic (paralinguistic) and linguistic features extracted from raw signals, and (ii) gaze and facial expressions, which provide essential cues during interactions and can be captured using egocentric video. The objectives of this thesis encompass both fundamental research and practical developments:

- To identify, analyze, and interpret salient emotional features extracted from multiple modalities (audio, video, and physiological signals), combining deterministic and stochastic signal processing approaches with deep learning representations.

- To design and evaluate novel multimodal fusion strategies for effectively integrating heterogeneous representations derived from different modalities.

- To develop and assess new methodologies for audio-visual emotion recognition, leveraging hybrid modeling approaches.

- (Optional) To design and implement a software prototype enabling real-time multimodal emotion analysis, with potential applications in educational and healthcare contexts.

Le profil recherché

Le candidat devra avoir un master en Informatique, Mathématiques, IA ou tout autre domaine lié, avec :
- de bonne connaissances en machine learning, deep learning et traitement du signal
- une bonne formation en mathématqiues
- de solides compétences en programmation (Python, Matlab, C/C++, keras, tensorflow, pytorch, etc.)
- une grande motivation et une bonne capacité de travail

Publiée le 18/04/2026 - Réf : 4a18ef594d3084592be0116ca852978b

Finalisez votre candidature

sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

L'Industrie recrute recrutement
Voir l’offre
il y a 18 jours
Armée de l'Air et de l'Espace recrutement
Voir l’offre
il y a 16 jours
BOWEN recrutement
Voir l’offre
il y a 16 jours
Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact