Aller au contenu principal

Thèse Apprentissage par Renforcement Réutilisable et Général pour la Robotique Humanoide H/F

Doctorat_Gouv

  • Bordeaux - 33
  • CDD
  • Bac +5
  • Service public d'état
Lire dans l'app

Détail du poste

Établissement : Université de Bordeaux
École doctorale : Mathématiques et Informatique
Laboratoire de recherche : LaBRI - Laboratoire Bordelais de Recherche en Informatique
Direction de la thèse : Olivier LY
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-05-04T23:59:59

Les récents progrès de l'apprentissage par renforcement (RL) ont permis des avancées remarquables dans la conception de comportements globaux pour les robots humanoïdes. Grâce à la modulation des récompenses et aux environnements basés sur la physique, il est devenu possible de synthétiser des politiques de mouvement robustes et performantes capables de marcher, de se relever après une chute ou d'effectuer des tâches agiles comme donner un coup de pied dans un ballon. Néanmoins, ces politiques restent spécifiques à une tâche et fragiles, nécessitant une réingénierie importante lorsque de nouveaux objectifs émergent. Par exemple, une politique de contrôle entraînée pour la locomotion doit souvent être presque entièrement réappris pour s'adapter à des objectifs de niveau supérieur comme la navigation orientée vers une cible ou la manipulation coordonnée d'un ballon. Le manque de réutilisabilité des politiques qui en résulte constitue un goulot d'étranglement majeur pour l'autonomie des robots à grande échelle.

Les efforts visant à améliorer la généralisation comportementale ont exploré diverses approches. L'apprentissage par renforcement hiérarchique décompose le contrôle en couches de primitives réutilisables, mais impose des limites rigides qui dégradent les performances de la tâche. En revanche, les approches basées sur la diffusion ou les modèles de base, proposent des politiques de suivi générales de bout en bout capables d'imiter diverses compétences à partir de démonstrations. Ces méthodes sacrifient souvent les performances et l'adaptabilité spécifiques à une tâche en raison de leur rigidité computationnelle et architecturale. Combler le fossé entre des politiques expressives et généralistes et une adaptation efficace aux tâches robotiques spécifiques demeure un problème ouvert.

Rhoban is a robotics team with a particular focus on humanoid robots. The team develops its own platforms, like the kid-size humanoid robot Sigmaban which was tested extensively during RoboCup soccer competitions[1]. Other robots, including adult-size humanoids, are currently being developed. Rhoban activities range from modeling [4], designing and building robots to machine learning for decision [2] and control [3]. A starting collaboration with Google DeepMind's MuJoCo[5] team is being set up in that scope.

Le profil recherché

- modélisation en robotique
- développement de logiciels scientifiques (python, C, C++)
- IA, deep learning, reinforcement learning
- mathématiques appliquées

Publiée le 17/03/2026 - Réf : 54be1c232426efcd4cd8937b31906583

Thèse Apprentissage par Renforcement Réutilisable et Général pour la Robotique Humanoide H/F

Doctorat_Gouv
  • Bordeaux - 33
  • CDD
Postuler sur le site du partenaire Publiée le 17/03/2026 - Réf : 54be1c232426efcd4cd8937b31906583

Finalisez votre candidature

sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Fives Groupe recrutement
Fives Groupe recrutement
Voir l’offre
il y a 4 jours
Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact