Les missions du poste
Les modèles de réseaux de régulation sont des graphes reliant les éléments régulateurs (gènes, ARNm, etc.) au niveau cellulaire. Ces modèles in silico peuvent prédire et expliquer de manière dynamique la réponse cellulaire spécifique aux tissus face à des perturbations externes, par exemple suite à un traitement ou une mutation. En particulier, les réseaux de régulation booléens permettent de connecter des voies fonctionnellement enrichies et d'analyser simultanément des centaines d'interactions géniques, contrairement aux analyses différentielles classiques axées sur une seule cible ou aux approches d'amarrage protéique. Les simulations à grande échelle d'essais de médicaments avec des réseaux booléens, combinées à l'intelligence artificielle (IA), ont récemment conduit à l'émergence de consortiums de recherche visant à concevoir des « jumeaux numériques ».
Cependant, les défis spécifiques aux applications médicales limitent considérablement la nature et l'utilité des modèles d'IA sur les données biologiques, un problème que les réseaux booléens pourraient atténuer.
Premièrement, l'interprétabilité des modèles d'IA est cruciale pour améliorer notre compréhension de la biologie et vérifier la cohérence et la pertinence des simulations par rapport aux observations expérimentales.
Deuxièmement, en pratique, malgré la quantité croissante de données biologiques disponibles dans les bases de données publiques, les données multimodales alignées (omiques, imagerie) sont rares et coûteuses à obtenir, notamment pour les maladies rares, ce qui restreint l'utilisation de l'intelligence artificielle ou affecte l'entraînement des modèles. Dans un contexte de données limitées, l'intégration de priors basés sur les réseaux de régulation pourrait révéler et expliquer des connexions et des structures significatives dans des modèles d'IA autrement surparamétrés. The focus on interpretability aims at the elucidation of functional pathways involved in diseases and drug treatments to uncover potential new therapeutic indications. In practice, despite the ever larger amount of biological data available in public repositories, aligned multimodal data (omics, imaging) are scarce and expensive to obtain, especially for rare diseases, which restricts the use of artificial intelligence or affects the training of AI models. In a data-poor regime, the integration of priors based on regulatory networks might uncover and explain meaningful connections and structures in otherwise overparametrized AI models.
We consider as regulatory models Boolean networks [6-7], which are graphs connecting regulatory elements at a cellular level (e.g., genes, mRNA, ...). Connections represent regulatory interactions having an impact on the expression of a gene or the production of a protein: for instance, activation, or inhibition. These regulatory networks are dynamic, and then can qualitatively predict over time the behavior of wild-type cells or cells exposed to a perturbation: gene mutation, or chemical treatment. Those models can be developed for specific cell types, and elucidate the tissue-specific cellular response to external perturbations. Prior works in the last five years have demonstrated the expressiveness of those models, which are able to reproduce fine dynamics [8-9] despite their perceived simplicity. Large-scale simulations of drug testing with Boolean networks led to the recent emergence of research consortiums aspiring to design digital twins for a variety of diseases [10-13]. This PhD thesis focuses on a best-of-both-world scenario: leveraging the performance of embedding learning models to speed up and improve the analysis of regulatory models, while using those networks to craft biologically-meaningful information in downstream AI methods to boost their interpretability and scalability, especially on cell imaging data. The need to compare, cluster and analyze large-scale and high-dimensional biological data recently resulted in creating vector representations of fixed dimension, called embeddings, of cells or genes based on these data, that capture essential information. Foundation models are general-purpose deep learning models trained on massive amounts of biological data, which output cell embeddings. Multiple embedding foundation models have recently emerged [14-15]. These cell or gene embeddings can in turn be used in downstream applications, for instance, drug repurposing [16] or post-perturbation profile prediction in scRNAseq data [17].
Le profil recherché
- Connaissances en intelligence artificielle
- Maîtrise de Python/R et de Bash/script
- Bon niveau d'anglais requis
- Aptitude à travailler dans un environnement interdisciplinaire
- Présentations régulières et réunions avec les collaborateurs/biologistes
Bienvenue chez Doctorat.Gouv.Fr
Publiée le 12/05/2026 - Réf : 981e15ea612cb13e2285b42e7787206c