Détail du poste
Établissement : Université Côte d'Azur École doctorale : STIC - Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : I3S - Informatique, Signaux et Systèmes de Sophia-Antipolis Direction de la thèse : Marc ANTONINI ORCID 0000000270121735 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-03T23:59:59 La prolifération rapide des dispositifs intelligents, tels que les téléphones mobiles, les objets connectés, les technologies portables ou encore les véhicules autonomes, entraîne la génération continue de grandes quantités de données distribuées, souvent sensibles. Ces données ouvrent des perspectives majeures pour des applications telles que la santé, les villes intelligentes, la maintenance prédictive ou les services personnalisés, mais soulèvent aussi des enjeux cruciaux de confidentialité, de sécurité et de gouvernance des données.
Dans ce contexte, l'apprentissage distribué constitue une alternative prometteuse aux approches centralisées, en permettant à plusieurs dispositifs d'apprendre de manière collaborative sans partager directement leurs données locales. Deux grandes familles sont aujourd'hui au coeur de ce domaine : l'apprentissage fédéré, coordonné par un serveur central, et l'apprentissage décentralisé, qui repose sur des échanges directs entre agents sans serveur. Si ces approches offrent des garanties intéressantes en matière de confidentialité, elles restent confrontées à plusieurs verrous scientifiques, notamment l'hétérogénéité des données entre dispositifs, la multimodalité des informations collectées, les contraintes de communication et les limitations de calcul ou d'énergie des terminaux.
Cette thèse vise à développer de nouveaux modèles, algorithmes et outils théoriques pour l'apprentissage distribué en environnements hétérogènes. Une première partie portera sur la prise en compte des données non-iid et multimodales, afin de concevoir des stratégies d'apprentissage collaboratif plus robustes et plus adaptées aux réalités des réseaux distribués. Une seconde partie s'intéressera à la compression des informations échangées entre dispositifs, avec l'objectif de proposer des méthodes à la fois économes en ressources, performantes et compatibles avec les contraintes de confidentialité.
Les travaux s'inscriront dans la continuité des contributions antérieures de l'équipe encadrante sur l'apprentissage distribué de modèles simples, tout en s'ouvrant à des cadres plus complexes impliquant des réseaux de neurones profonds et des modèles à grande échelle, y compris les LLM. L'ambition est de faire progresser les fondements méthodologiques de l'apprentissage distribué frugal, afin de permettre un passage à l'échelle efficace et sûr dans des environnements réalistes. L'apprentissage distribué est aujourd'hui au coeur des enjeux liés à l'exploitation de données sensibles produites par des dispositifs connectés. Les approches fédérées et décentralisées permettent de conserver les données localement, mais se heurtent encore à plusieurs limitations : forte hétérogénéité statistique, multimodalité, contraintes de bande passante, coûts énergétiques et difficultés de passage à l'échelle. Ces verrous deviennent particulièrement critiques pour les modèles profonds et les LLM, ce qui motive le développement de nouvelles approches plus frugales, robustes et respectueuses de la confidentialité. Cette thèse a pour objectif de développer de nouvelles méthodes d'apprentissage distribué capables de traiter l'hétérogénéité des données et des systèmes, tout en réduisant les coûts de communication et de calcul. Elle visera en particulier à proposer des algorithmes robustes pour les contextes non-iid et multimodaux, ainsi que des mécanismes de compression adaptés aux réseaux de neurones profonds et aux modèles à grande échelle.
Le profil recherché
Publiée le 11/04/2026 - Réf : 5172f160fcf8e9c1d31fb242f6a7c48f