Complétez votre profil pour recevoir des offres adaptées.

Mon espace

Mes CV vus

Mes candidatures

Mes alertes

Mon profil

Paramètres

Déconnexion

Missions d'intérim
Offres de stage
Offres en alternance
Créer mon alerte
Déposer mon CV
Salaire brut net

Téléchargez l'app et postulez dans les premiers !

Diffuser ma première offre Déjà client

Téléchargez l'app et postulez dans les premiers !

Se connecter S'inscrire Formation

Téléchargez l'app et postulez dans les premiers !

Trouver mon job s

Trouver mon entreprise s

Accès recruteur

Diffuser ma première offre

Déjà client

Emploi

Missions d'intérim

Offres de stage

Offres en alternance

Créer mon alerte

Déposer mon CV

Salaire brut net

Formation

Se connecter

S'inscrire

Trouver mon job s

Trouver mon entreprise s

Mon espace

Mes CV vus

Mes candidatures

Mes alertes

Mon profil

Paramètres

Déconnexion

Pas de salaire renseigné

Le recruteur n'a pas communiqué le salaire pour cette offre, ou n'a pas souhaité l'afficher.

Phd Modèles Neuronaux Sémantique Haut Niveau et Signaux Paralinguistiques H/F Orange

Cesson-Sévigné - 35
CDD
Télétravail partiel
36 mois
Bac +5
Industrie high-tech • Telecom
Exp. - 1 an

Lire dans l'app

Postuler sur le site du recruteur

Les missions du poste

Contexte
La voix irrigue aujourd'hui l'expérience client et le travail collaboratif : hotlines, boutiques, réunions, visioconférences. Ce gisement recèle bien plus que la simple transcription. Les approches Speech-LLMs de bout en bout (E2E) ont montré, dans certaines configurations (pré-entraînement massif, finetuning), une sensibilité réelle au signal parlé. Cependant, cette exploitation demeure souvent opportuniste, peu contrôlée, en particulier pour les indices paralinguistiques (prosodie, intensité, pauses, rires) qui véhiculent identité, intention, certitude, ou ironie.
3 défis structurent le sujet. D'abord, capter et utiliser ces indices de façon explicite et mesurable, au-delà des cascades (ASR+LLM), et des E2E actuels qui n'en tirent pas encore tout le bénéfice. Ensuite, raisonner sur de très longs contextes : les conversations alternent sujets, locuteurs et références croisées, requérant mémoire, structuration temporelle et désambiguïsation (coréférences, implicites).
Chez Orange, des cas d'usage concrets : résumés de réunions orientés décisions, analyse d'alignement/contradiction entre contenu et ton, assistants vocaux plus naturels et sûrs. Côté marché, Sosh opère déjà un assistant vocal speech-to-speech, illustrant l'adoption à plus large échelle de ce type d'approches.
Objectifs et verrous
Unifier sémantique de haut niveau et signaux paralinguistiques pour " comprendre au-delà des mots ", tout en gérant de longs contextes. Résultat attendu : des modèles et protocoles d'évaluation exploitant la richesse du signal parlé et mesurant les gains sur des cas d'usage sémantiques (résumé, suivi d'état, intentions, ironie/toxicité) en environnement multi-locuteurs et bruité.
3 sous-objectifs :
Mesurer l'apport paralinguistique. Définir des protocoles isolant sa contribution (avec/sans, contre-factuels via édition prosodique, ablations). Verrous : disponibilité/qualité des annotations, normalisation inter-locuteurs, robustesse au bruit.
Représenter et intégrer les signaux. Apprendre un espace commun audio-texte orienté concepts, reliant contenu linguistique et indices paralinguistiques, interrogeable par un modèle de compréhension. Verrous : alignement multimodal, généralisation hors domaine, contrôle de l'attention aux indices.
Gérer le long contexte (segmentation, hiérarchies, compression, architectures). Verrous : coût calcul/inférence, dérive mémorielle, traçabilité.

Le profil recherché

Compétences scientifiques et techniques
Intelligence artificielle.
Maîtrise d'un framework de deep learning (idéalement Pytorch).
Traitement du signal.
Mathématiques appliquées.
Traitement de la parole ou du texte (souhaitable).

Qualités personnelles
Rigueur pour la formalisation des algorithmes, la gestion des données, l'analyse critique des résultats, la communication.
Inventivité, imagination pour faire avancer les travaux de recherche, explorer des voies originales, résoudre des problèmes complexes.
Autonomie.
Ouverture et partage (des idées, points de vue, etc.). Savoir solliciter les échanges avec l'équipe, les encadrants, la communauté.

Formation
Vous êtes titulaire d'un master recherche ou équivalent, ou vous êtes diplômé(e) d'une école d'ingénieur ou équivalent avec, de préférence, une spécialité dans un ou plusieurs domaines de l'Intelligence Artificielle.

Expériences souhaitées
Stage dans le domaine du deep learning et/ou du traitement du signal audio.

Infos complémentaires

Interessement, participation, mutuelle, restaurant d entreprise, participation frais de transport, activités sociales et culturelles CSE

Les étapes de recrutement

Les étapes de recrutement peuvent varier selon l'offre à laquelle vous postulez.

Proposition d’entretien ou réponse négative dans les 15 jours après votre candidature
Entretien en visio ou présentiel avec le/la consultant(e) en recrutement sous 15 jours
Rencontre en visio ou présentiel avec le/la manager
Votre candidature est retenue, félicitations ! Vous recevez votre proposition d'embauche
Bienvenue chez Orange :) votre programme d’intégration démarre
En cas de réponse négative, nous restons à votre disposition pour un debrief