Aller au contenu principal
Orange emploi
Orange recrutement

Post Doc-Algorithmes de Bandits pour la Recherche de Plus Court Chemin H/F Orange

  • Lannion - 22
  • CDD
  • Télétravail partiel
  • 12 mois
  • Bac +5
  • Industrie high-tech • Telecom
  • Exp. 1 à 7 ans
Lire dans l'app

Les missions du poste

Votre rôle est d'effectuer un travail de Post doc sur le sujet " Algorithmes de bandits pour la recherche de plus court chemin dans un environnement multi-agents, stochastique ou adverse" dans le cadre du projet ANR CANCUN (Time-Sensitive Vehicular Control and Collaborative Perception via AI-augmented Sustainable Networks) démarré en 2025.

Dans un environnement industriel, comme un port, une chaine de montage..., des véhicules autonomes et d'autres pilotés par des humains doivent parcourir des trajets correspondant à leurs différentes tâches. Les véhicules partagent le même réseau de circulation et peuvent se gêner mutuellement, modifiant les temps de parcours et donc la consommation énergétique. L'objectif est de minimiser l'énergie nécessaire à la réalisation des parcours des véhicules autonomes. Ce problème peut se modéliser comme une recherche de plus court chemin stochastique dans un Processus de Décision de Markov [1], où les transitions entre les noeuds (croisements) connaissant les actions (choix des routes) sont déterministes et où l'énergie nécessaire au parcours d'une route serait une variable aléatoire. Des premiers travaux considérant un seul véhicule autonome dans un trafic mixant véhicules autonomes et véhicules pilotés par des humains ont montré que dans le cadre stochastique, un algorithme de bandits [2] permettait d'explorer quasi-optimalement l'espace des chemins [3]. L'objet de ces travaux de recherche est d'étendre cette approche dans plusieurs directions :
- Multi-agent : contrôle de plusieurs véhicules autonomes partageant le même réseau de circulation en utilisant par exemple une approche bandits multi-joueurs [4].
- Communication : utilisation de messages entre les agents pour accélérer la convergence [5].
- Adversité : les véhicules pilotés par des humains ont des buts déterministes, et ont donc un effet non stochastique (en pire cas adverse) sur les temps de parcours des véhicules autonomes [6].

Les algorithmes seront analysés, puis testés sur un simulateur (SUMO), puis sur une plateforme de véhicules commandés à distance en milieu industriel.

· Doctorat informatique / mathématiques / réseaux de télécommunication.

· Compétences en apprentissage et notamment apprentissage par renforcement, processus de décision markovien, bandits.

· Compétences en mathématiques, statistiques, optimisation.

· Compétence en réseau de télécommunication mobile.

· Compétences en informatique (Python, C++), la connaissance du simulateur de réseaux routiers SUMO serait un plus.

· Maitrise de l'anglais écrit et oral.

· Bonnes qualités relationnelles.

Les références
[1] Dynamic Programming and Optimal Control: Volume I, D. Bertsekas, Belmont, MA, USA: Athena Scientific, 4th ed., 2012.
[2] Bandit Algorithms, T. Lattimore and C. Szepesvari, Cambridge University Press, 2020.
[3] Multi-armed Bandit for Stochastic Shortest Path in Mixed Autonomy, Yu Bai, Yiming Li, and Xi Xiong, arXiv, 2025.
[4] Multi-Player Bandits - a Musical Chairs Approach, Jonathan Rosenski, Ohad Shamir, Liran Szlak, NeurIPS, 2016.
[5] Decentralized Exploration in Multi-Armed Bandits, Raphaël Féraud, Réda Alami, Romain Laroche, ICML, 2019.
[6] Stochastic Shortest Path with Adversarially Changing Costs, Aviv Rosenberg and Yishay Mansour, IJCAI, 2021.

  • Mutuelle et prévoyance collective
  • Un smartphone professionnel pour tous
  • Remise de 30% sur les abonnements perso internet et mobile Orange
  • Avec le CSE, pack culture, CESU, chèques-vacances, billetterie
  • Orange participe financièrement aux trajets domicile-travail
  • Jusqu'à 20 jours de RTT selon le régime de travail
  • Compte Epargne Temps
  • Plan d'Epargne Entreprise et Plan d'Epargne Retraite Collectif
  • Programme de sponsoring interne pour soutenir vos projets passion
  • Droit à la déconnexion numérique en dehors des heures de travail

Part variable, intéressement, participation, restaurant d "entreprise, réduction produits et services, Activités sociales (culturelles, sportives, voyages, réduction enseignes et concerts, musées..enfants).

Les étapes de recrutement

Les étapes de recrutement peuvent varier selon l'offre à laquelle vous postulez.

  • Proposition d’entretien ou réponse négative dans les 15 jours après votre candidature

  • Entretien en visio ou présentiel avec le/la consultant(e) en recrutement sous 15 jours

  • Rencontre en visio ou présentiel avec le/la manager

  • Votre candidature est retenue, félicitations ! Vous recevez votre proposition d'embauche

  • Bienvenue chez Orange :) votre programme d’intégration démarre

  • En cas de réponse négative, nous restons à votre disposition pour un debrief

0 / 12

La carte

Rue Claude Chappe

22300 Lannion

Localiser le poste

Publiée le 03/12/2025 - Réf : 27549433 2025-46447

Post Doc-Algorithmes de Bandits pour la Recherche de Plus Court Chemin H/F

Orange
  • Lannion - 22
  • CDD
Publiée le 03/12/2025 - Réf : 27549433 2025-46447

Finalisez votre candidature

sur le site du recruteur

Créez votre compte pour postuler

sur le site du recruteur !

Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Application Android (nouvelle fenêtre) Application ios (nouvelle fenêtre)
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact