Thèse Apprentissage par Renforcement Multi-Agent Coopétitif H/F

Doctorat.Gouv.Fr

  • Grenoble - 38
  • CDD
  • Bac +5
  • Service public d'état
Lire dans l'app

Les compétences pour ce job

  • Machine learning

Détail du poste

Établissement : Université Grenoble Alpes
École doctorale : MSTII - Mathématiques, Sciences et technologies de l'information, Informatique
Laboratoire de recherche : Centre de recherche Inria de l'Université Grenoble Alpes
Direction de la thèse : Pierre GAILLARD ORCID 0000000256657904
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-07-25T23:59:59

Ce projet de thèse développe les fondements théoriques et algorithmiques de l'apprentissage par renforcement multi-agents coopétitif (MARL) - des contextes où des agents apprenants partagent un environnement ou une infrastructure tout en poursuivant des objectifs partiellement désalignés, comme dans les places de marché en ligne, les enchères en temps réel, les écosystèmes de recommandation et les systèmes d'IA agentique émergents. L'objectif central est de comprendre comment les agents apprenants se comportent dans des environnements stratégiques où interagissent les incitations individuelles, les effets collectifs et les boucles de rétroaction, en abordant les questions fondamentales de convergence, de sélection d'équilibre, de stabilité, d'attribution du crédit, de robustesse à la non-stationnarité, et de conception de règles d'apprentissage qui restent efficaces lorsque l'environnement est lui-même façonné par d'autres agents apprenants. Ce travail s'inscrit stratégiquement dans trois directions pour Criteo : les problèmes classiques tels que les enchères en temps réel et l'optimisation des places de marché ; l'intérêt croissant de l'équipe pour le post-entraînement des LLM et les systèmes agentiques, dont les pipelines reposent sur des mises à jour de type apprentissage par renforcement, des retours de récompense ou de préférence, et l'amélioration itérative des politiques ; et le paradigme anticipé du commerce agentique, où la découverte de produits est de plus en plus médiée par des agents d'IA agissant pour le compte des utilisateurs. Plutôt qu'un projet de production direct, ce projet vise à développer une expertise transférable sur l'optimisation de politiques guidée par la rétroaction dans des environnements stratégiques et multi-agents.

L'apprentissage par renforcement (RL) est un paradigme central pour la prise de décision séquentielle sous incertitude, mais de nombreux systèmes réels font intervenir non pas un unique agent apprenant, mais plusieurs agents qui apprennent et interagissent simultanément - le cadre de l'apprentissage par renforcement multi-agents (MARL). En MARL, l'environnement est en partie endogène : les autres agents observent, agissent, apprennent et réagissent, engendrant des dynamiques non stationnaires et des boucles de rétroaction stratégiques absentes des modèles mono-agent. Les interactions peuvent être coopératives, compétitives ou mixtes, et le cas mixte - la coopétition - est particulièrement pertinent dans les systèmes industriels, où les agents partagent un même écosystème tout en optimisant des objectifs partiellement conflictuels. Le MARL coopétitif soulève des questions fondamentales à l'interface de l'apprentissage par renforcement, de l'apprentissage en ligne, de l'optimisation et de la théorie des jeux : quelle notion d'équilibre viser, les dynamiques d'apprentissage naturelles convergent-elles, quel équilibre est sélectionné le cas échéant, et des règles d'apprentissage individuelles peuvent-elles conduire à des résultats stables et socialement souhaitables. Si les méthodes existantes - critiques centralisés, architectures CTDE, approches acteur-critique multi-agents - ont permis des avancées empiriques notables, une compréhension théorique rigoureuse de l'apprentissage coopétitif reste limitée. Cette question est d'une actualité croissante, car elle sous-tend des systèmes stratégiques à grande échelle tels que les enchères en temps réel et la publicité en ligne, les pipelines modernes de post-entraînement des LLM (RLHF, RLAIF, apprentissage par préférences), ainsi que le paradigme émergent du commerce agentique, où la découverte de produits est de plus en plus médiée par des agents autonomes agissant pour le compte des utilisateurs.

Le profil recherché

Compétences en probabilités/statistiques, apprentissage par renforcement, optimisation et théorie des jeux.

Publiée le 25/06/2026 - Réf : 432086db7f9a2b696b21fe7a501322f1

Postuler
Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Atral Group recrutement
Atral Group recrutement
Voir l’offre
il y a 19 jours
CSTB recrutement
CSTB recrutement
Saint-Martin-d'Hères - 38
CDI
36 000 - 40 000 € / an
Voir l’offre
il y a 4 jours
Voir plus d'offres
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact