Détail du poste
Établissement : Université Côte d'Azur École doctorale : STIC - Sciences et Technologies de l'Information et de la Communication Laboratoire de recherche : I3S - Informatique, Signaux et Systèmes de Sophia-Antipolis Direction de la thèse : Christel DARTIGUES-PALLEZ ORCID 0000000157275142 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-03T23:59:59 Ce travail de recherche vise à développer une approche innovante de modification interactive des forêts aléatoires à l'aide d'un outil de visualisation avancée. Les forêts aléatoires, modèles ensemblistes composés de nombreux arbres de décision injectant de l'aléa pour accroître robustesse et diversité, ont démontré leur efficacité pour l'extraction de connaissances dans divers domaines, notamment la réussite étudiante et l'étude de la Sclérose Latérale Amyotrophique (SLA).
Cependant, la taille importante de ces modèles - souvent plusieurs centaines d'arbres - rend leur interprétation difficile pour les utilisateurs finaux comme pour les data scientists. Les outils existants ne permettant pas une exploration satisfaisante de la structure interne des forêts, un outil dédié, RFiViz, a été développé sous D3.js. Celui-ci permet :
- d'analyser les décisions des arbres pour des individus spécifiques, en identifiant les consensus ou divergences ;
- de visualiser les performances individuelles des arbres et de repérer ceux qui dégradent la performance globale ;
- d'examiner la distribution des caractéristiques utilisées dans les noeuds de décision, afin d'identifier les variables associées aux arbres performants ou non pertinents.
L'objectif de la thèse est d'exploiter ces capacités de visualisation pour identifier et supprimer les arbres et caractéristiques les moins pertinents, puis mettre à jour la forêt en générant de nouveaux arbres. Le doctorant devra concevoir une visualisation interactive permettant d'explorer la diversité structurelle et décisionnelle de la forêt, puis proposer un algorithme de mise à jour interactive fondé sur les éléments identifiés visuellement.
Deux domaines d'application serviront de banc d'essai :
- la prédiction de la réussite étudiante, à partir de données anonymisées issues de Parcoursup ;
- l'analyse des facteurs influençant la progression de la SLA, à partir du jeu de données public PRO-ACT (plus de 11 000 patients).
Le projet requiert des compétences en apprentissage supervisé et en visualisation de données, ainsi que la maîtrise des technologies web (HTML, CSS, JavaScript) et de Python/scikit-learn. Cette thèse se place dans les domaines de l'apprentissage supervisé pour des données complexes qui évoluent dans le temps et de la visualisation interactive des modèles d'apprentissage
Le profil recherché
Technologies à maîtriser
- Languages web (html, css, javascript)
- Python (librairie scikit-learn)
Publiée le 17/04/2026 - Réf : 1abbfe851ef04528303ff777dd308dd7