Thèse Apprentissage par Renforcement Multi-Agent Coopétitif H/F
Doctorat.Gouv.Fr
- Grenoble - 38
- CDD
- Bac +5
- Service public d'état
Les compétences pour ce job
- Machine learning
Détail du poste
Établissement : Université Grenoble Alpes
École doctorale : MSTII - Mathématiques, Sciences et technologies de l'information, Informatique
Laboratoire de recherche : Centre de recherche Inria de l'Université Grenoble Alpes
Direction de la thèse : Pierre GAILLARD ORCID 0000000256657904
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-07-25T23:59:59
Ce projet de thèse développe les fondements théoriques et algorithmiques de l'apprentissage par renforcement multi-agents coopétitif (MARL) - des contextes où des agents apprenants partagent un environnement ou une infrastructure tout en poursuivant des objectifs partiellement désalignés, comme dans les places de marché en ligne, les enchères en temps réel, les écosystèmes de recommandation et les systèmes d'IA agentique émergents. L'objectif central est de comprendre comment les agents apprenants se comportent dans des environnements stratégiques où interagissent les incitations individuelles, les effets collectifs et les boucles de rétroaction, en abordant les questions fondamentales de convergence, de sélection d'équilibre, de stabilité, d'attribution du crédit, de robustesse à la non-stationnarité, et de conception de règles d'apprentissage qui restent efficaces lorsque l'environnement est lui-même façonné par d'autres agents apprenants. Ce travail s'inscrit stratégiquement dans trois directions pour Criteo : les problèmes classiques tels que les enchères en temps réel et l'optimisation des places de marché ; l'intérêt croissant de l'équipe pour le post-entraînement des LLM et les systèmes agentiques, dont les pipelines reposent sur des mises à jour de type apprentissage par renforcement, des retours de récompense ou de préférence, et l'amélioration itérative des politiques ; et le paradigme anticipé du commerce agentique, où la découverte de produits est de plus en plus médiée par des agents d'IA agissant pour le compte des utilisateurs. Plutôt qu'un projet de production direct, ce projet vise à développer une expertise transférable sur l'optimisation de politiques guidée par la rétroaction dans des environnements stratégiques et multi-agents.
L'apprentissage par renforcement (RL) est un paradigme central pour la prise de décision séquentielle sous incertitude, mais de nombreux systèmes réels font intervenir non pas un unique agent apprenant, mais plusieurs agents qui apprennent et interagissent simultanément - le cadre de l'apprentissage par renforcement multi-agents (MARL). En MARL, l'environnement est en partie endogène : les autres agents observent, agissent, apprennent et réagissent, engendrant des dynamiques non stationnaires et des boucles de rétroaction stratégiques absentes des modèles mono-agent. Les interactions peuvent être coopératives, compétitives ou mixtes, et le cas mixte - la coopétition - est particulièrement pertinent dans les systèmes industriels, où les agents partagent un même écosystème tout en optimisant des objectifs partiellement conflictuels. Le MARL coopétitif soulève des questions fondamentales à l'interface de l'apprentissage par renforcement, de l'apprentissage en ligne, de l'optimisation et de la théorie des jeux : quelle notion d'équilibre viser, les dynamiques d'apprentissage naturelles convergent-elles, quel équilibre est sélectionné le cas échéant, et des règles d'apprentissage individuelles peuvent-elles conduire à des résultats stables et socialement souhaitables. Si les méthodes existantes - critiques centralisés, architectures CTDE, approches acteur-critique multi-agents - ont permis des avancées empiriques notables, une compréhension théorique rigoureuse de l'apprentissage coopétitif reste limitée. Cette question est d'une actualité croissante, car elle sous-tend des systèmes stratégiques à grande échelle tels que les enchères en temps réel et la publicité en ligne, les pipelines modernes de post-entraînement des LLM (RLHF, RLAIF, apprentissage par préférences), ainsi que le paradigme émergent du commerce agentique, où la découverte de produits est de plus en plus médiée par des agents autonomes agissant pour le compte des utilisateurs.
Le profil recherché
Publiée le 25/06/2026 - Réf : 432086db7f9a2b696b21fe7a501322f1