

Post Doc-Algorithmes de Bandits pour la Recherche de Plus Court Chemin H/F Orange
- Lannion - 22
- CDD
- Télétravail partiel
- 12 mois
- Bac +5
- Industrie high-tech • Telecom
- Exp. 1 à 7 ans
Les missions du poste
Votre rôle est d'effectuer un travail de Post doc sur le sujet " Algorithmes de bandits pour la recherche de plus court chemin dans un environnement multi-agents, stochastique ou adverse" dans le cadre du projet ANR CANCUN (Time-Sensitive Vehicular Control and Collaborative Perception via AI-augmented Sustainable Networks) démarré en 2025.
Dans un environnement industriel, comme un port, une chaine de montage..., des véhicules autonomes et d'autres pilotés par des humains doivent parcourir des trajets correspondant à leurs différentes tâches. Les véhicules partagent le même réseau de circulation et peuvent se gêner mutuellement, modifiant les temps de parcours et donc la consommation énergétique. L'objectif est de minimiser l'énergie nécessaire à la réalisation des parcours des véhicules autonomes. Ce problème peut se modéliser comme une recherche de plus court chemin stochastique dans un Processus de Décision de Markov [1], où les transitions entre les noeuds (croisements) connaissant les actions (choix des routes) sont déterministes et où l'énergie nécessaire au parcours d'une route serait une variable aléatoire. Des premiers travaux considérant un seul véhicule autonome dans un trafic mixant véhicules autonomes et véhicules pilotés par des humains ont montré que dans le cadre stochastique, un algorithme de bandits [2] permettait d'explorer quasi-optimalement l'espace des chemins [3]. L'objet de ces travaux de recherche est d'étendre cette approche dans plusieurs directions :
- Multi-agent : contrôle de plusieurs véhicules autonomes partageant le même réseau de circulation en utilisant par exemple une approche bandits multi-joueurs [4].
- Communication : utilisation de messages entre les agents pour accélérer la convergence [5].
- Adversité : les véhicules pilotés par des humains ont des buts déterministes, et ont donc un effet non stochastique (en pire cas adverse) sur les temps de parcours des véhicules autonomes [6].
Les algorithmes seront analysés, puis testés sur un simulateur (SUMO), puis sur une plateforme de véhicules commandés à distance en milieu industriel.
· Doctorat informatique / mathématiques / réseaux de télécommunication.
· Compétences en apprentissage et notamment apprentissage par renforcement, processus de décision markovien, bandits.
· Compétences en mathématiques, statistiques, optimisation.
· Compétence en réseau de télécommunication mobile.
· Compétences en informatique (Python, C++), la connaissance du simulateur de réseaux routiers SUMO serait un plus.
· Maitrise de l'anglais écrit et oral.
· Bonnes qualités relationnelles.
Les références
[1] Dynamic Programming and Optimal Control: Volume I, D. Bertsekas, Belmont, MA, USA: Athena Scientific, 4th ed., 2012.
[2] Bandit Algorithms, T. Lattimore and C. Szepesvari, Cambridge University Press, 2020.
[3] Multi-armed Bandit for Stochastic Shortest Path in Mixed Autonomy, Yu Bai, Yiming Li, and Xi Xiong, arXiv, 2025.
[4] Multi-Player Bandits - a Musical Chairs Approach, Jonathan Rosenski, Ohad Shamir, Liran Szlak, NeurIPS, 2016.
[5] Decentralized Exploration in Multi-Armed Bandits, Raphaël Féraud, Réda Alami, Romain Laroche, ICML, 2019.
[6] Stochastic Shortest Path with Adversarially Changing Costs, Aviv Rosenberg and Yishay Mansour, IJCAI, 2021.
L'ambition de la Division Innovation est de porter plus loin l'innovation d'Orange et de renforcer son leadership technologique, en mobilisant nos capacités de recherche pour nourrir une innovation responsable au service de l'humain, éclairer les choix stratégiques du Groupe à long terme et influencer l'écosystème digital mondial.
Nous formons les expertes et les experts des technologies d'aujourd'hui et de demain, et veillons à une amélioration continue de la performance de nos services et de notre efficacité.
La division Innovation rassemble, dans le monde, 6000 salariés dédiés à la recherche et l'innovation dont 740 chercheurs. Porteurs d'une vision globale avec une grande diversité de profils (chercheurs, ingénieurs, designers, développeurs, data scientists, sociologues, graphistes, marketeurs, experts en cybersécurité...), les femmes et les hommes d'Innovation sont à l'écoute et au service des pays, des régions et des business units pour faire d'Orange un opérateur multiservices de confiance.
Au sein de Innovation, vous serez intégré(e) dans l'équipe de recherche PROF, spécialisée en machine learning, qui est reconnue tant au sein du groupe Orange et que sur le plan académique au niveau international. Elle compte actuellement 20 membres permanents, et 5 doctorants.
Part variable, intéressement, participation, restaurant d "entreprise, réduction produits et services, Activités sociales (culturelles, sportives, voyages, réduction enseignes et concerts, musées..enfants).









Nos étapes de recrutement
Les étapes de recrutement peuvent varier selon l’offre à laquelle vous postulez.
-
Proposition d’entretien ou réponse négative dans les 15 jours après votre candidature
-
Entretien en visio ou présentiel avec le/la consultant(e) en recrutement sous 15 jours
-
Rencontre en visio ou présentiel avec le/la manager
-
Votre candidature est retenue, félicitations ! Vous recevez votre proposition d'embauche
-
Bienvenue chez Orange :) votre programme d’intégration démarre
-
En cas de réponse négative, nous restons à votre disposition pour un debrief
Raisons de nous rejoindre
-
Mutuelle et prévoyance collective
-
Un smartphone professionnel pour tous
-
Remise de 30% sur les abonnements perso internet et mobile Orange
-
Avec le CSE, pack culture, CESU, chèques-vacances, billetterie
-
Orange participe financièrement aux trajets domicile-travail
-
Jusqu'à 20 jours de RTT selon le régime de travail
-
Compte Epargne Temps
-
Plan d'Epargne Entreprise et Plan d'Epargne Retraite Collectif
-
Programme de sponsoring interne pour soutenir vos projets passion
-
Droit à la déconnexion numérique en dehors des heures de travail
Localiser le poste
Salaire fourni par le recruteur
Publiée le 11/09/2025 - Réf : 26631224 2025-46447
Post Doc-Algorithmes de Bandits pour la Recherche de Plus Court Chemin H/F
- Lannion - 22
- CDD
Créez une alerte
Pour être informé rapidement des nouvelles offres, merci de préciser les critères :
Envoyez votre candidature
dès maintenant !
Créez votre compte et
envoyez votre candidature !
dès maintenant !
envoyez votre candidature !
Recherches similaires
{{title}}
{{message}}
{{linkLabel}}