Aller au contenu principal
Orange emploi
Orange recrutement

Phd 'Data Mixing Using Bandits To Train Llms' H/F Orange

  • Lannion - 22
  • CDD
  • 36 mois
  • Bac +5
  • Industrie high-tech • Telecom
  • Exp. - 1 an
Lire dans l'app

Les missions du poste

L'entraînement des grands modèles de langage (LLMs) nécessite de gérer efficacement un coût élevé en données. Il faut sous-échantillonner les sources peu utiles et sur-échantillonner celles profitables. Les méthodes actuelles de data mixing, basées sur des lois de mélange ou régressions, ne captent pas parfaitement la dynamique d'apprentissage ni la non-stationnarité de l'utilité des données. Une alternative consiste à formaliser l'ajustement des proportions d'échantillonnage via un agent qui, à chaque étape, choisit une source et observe un retour lié aux progrès du modèle. Les bandits, notamment non-stationnaires, offrent un cadre pour gérer exploration/exploitation et l'évolution de l'utilité des sources.

L'objectif est de développer des méthodes innovantes pour adapter dynamiquement l'échantillonnage entre sources lors de l'apprentissage de modèles statistiques, en particulier les LLMs, en utilisant des modèles de bandits et des algorithmes d'allocation adaptés à l'entraînement à grande échelle.
Les principaux défis sont :

Estimer un feedback utile malgré un signal indirect, bruité et biaisé ;
Gérer la non-stationnarité de l'utilité des sources au fil du temps ;
Prendre en compte les interactions entre sources (synergie, redondance, interférence) ;
Limiter le coût d'exploration dans un contexte de contraintes de calcul et de retards dans les retours.
Résultats attendus :
Formalisation d'un modèle bandit réaliste pour le data mixing, développement de nouveaux algorithmes d'échantillonnage adaptatif, et leur évaluation à grande échelle.

Le profil recherché

Compétences (scientifiques et techniques) et qualités personnelles exigées par
le poste
- Scientifiques et techniques
? Solide formation en mathématiques appliquées, probabilités/statistiques et
optimisation
? Maîtrise de Python et des librairies de data science (NumPy, PyTorch...)
? Connaissances en apprentissage automatique et deep learning
- Qualités personnelles
? Intérêt pour la recherche appliquée et la validation expérimentale
? Curiosité scientifique, rigueur et autonomie.
? Goût pour le travail en équipe et la communication de résultats
? Esprit d'initiative et capacité d'adaptation à des problématiques complexes
? Bonnes capacités communicationnelles (prise de parole, rédaction, anglais)
Formation demandée (master, diplôme d'ingénieur, doctorat, domaine
scientifique et technique ...)
- Master 2 ou école d'ingénieur en informatique ou mathématiques appliquées
Expériences souhaitées (stages, ...)
- Idéalement, un stage dans un environnement de recherche en machine learning

Infos complémentaires

Plan d'épargne entreprise et...

Les étapes de recrutement

Les étapes de recrutement peuvent varier selon l'offre à laquelle vous postulez.

  • Proposition d’entretien ou réponse négative dans les 15 jours après votre candidature

  • Entretien en visio ou présentiel avec le/la consultant(e) en recrutement sous 15 jours

  • Rencontre en visio ou présentiel avec le/la manager

  • Votre candidature est retenue, félicitations ! Vous recevez votre proposition d'embauche

  • Bienvenue chez Orange :) votre programme d’intégration démarre

  • En cas de réponse négative, nous restons à votre disposition pour un debrief

0 / 12

La carte

2 Avenue Pierre Marzin

22300 Lannion

Localiser le poste

Publiée le 14/04/2026 - Réf : 29065793 2026-51768

Phd 'Data Mixing Using Bandits To Train Llms' H/F

Orange
  • Lannion - 22
  • CDD
Postuler sur le site du recruteur Publiée le 14/04/2026 - Réf : 29065793 2026-51768

Finalisez votre candidature

sur le site du recruteur

Créez votre compte
Hellowork et postulez

sur le site du recruteur !

Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact