Aller au contenu principal

Thèse Modélisation In Silico des Complexes de Facteurs de Transcription et de leurs Motifs Adn Cibles dans la Régulation du Stress chez les Plantes H/F

Université Paris-Saclay GS Life Sciences and Health

  • Paris - 75
  • CDD
  • BEP, CAP
  • Bac
  • Service public d'état
Lire dans l'app

Détail du poste

Établissement : Université Paris-Saclay GS Life Sciences and Health
École doctorale : Structure et Dynamique des Systèmes Vivants
Laboratoire de recherche : IPS2 - Institut de Sciences des Plantes de Paris-Saclay
Direction de la thèse : Véronique BRUNAUD ORCID 0000000262463161
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-03-23T23:59:59

Les facteurs de transcription (TF) sont des protéines jouant un rôle central dans la régulation de l'expression des gènes cibles chez tous les organismes. Chez les plantes, ils représentent près de 10% des gènes codant pour des protéines (Lai et al., 2018). Au niveau moléculaire, les TF reconnaissent de courtes séquences d'ADN situées en amont de leurs gènes cibles. Par ailleurs, la régulation génétique fait généralement intervenir non pas un seul TF, mais des combinaisons de TF agissant comme cofacteurs.
Comprendre en profondeur les mécanismes contrôlant l'expression des gènes nécessite donc d'identifier les combinaisons (ou cocktails) de TF qui régulent conjointement des ensembles de gènes. Cependant, qu'il s'agisse d'approches expérimentales (ChIP-seq, Co-IP, etc.) ou computationnelles (par exemple à l'aide de prédictions AlphaFold Multimer), identifier à grande échelle ces combinaisons de TF et leurs ensembles de gènes cibles demeure irréalisable, les coûts et les temps nécessaires étant prohibitifs.

L'objectif de cette thèse est d'accélérer la découverte de ces combinaisons de TF en présélectionnant des couples ou cocktails TF × cibles ADN pertinents sur la base
1. d'expériences transcriptomiques afin d'identifier des motifs ADN co-occurrents et enrichis en amont et en aval de gènes co-régulés (à l'aide d'outil comme PLMdetect ou DNA-BERT);
2. de paires TF x TF ou TF x motif d'ADN identifiées expérimentalement ou prédites in silico.

Les combinaisons ainsi identifiées seront ensuite évaluées par des méthodes d'apprentissage automatique exploitant les prédictions structurales produites par AlphaFold, pour tous les candidats précédemment sélectionnés.

Au sein de l'Institut des Sciences des Plantes Paris-Saclay (IPS2), l'équipe Genomic Networks (GNet) développe des approches bioinformatiques et mathématiques pour prédire et analyser les réseaux d'interactions moléculaires. L'un de ses axes majeurs de recherche consiste à identifier les interactions entre facteurs de transcription (TF) et gènes cibles au cours de la réponse des plantes à un stress.
Les TF reconnaissent de courtes séquences d'ADN, appelées TFBS (Transcription Factor Binding Sites), situées le plus souvent en amont de leurs gènes cibles, généralement dans la région [-1000,+200] autour du site d'initiation de la transcription (TSS)[1]. Au sein de l'équipe GNet, nous avons développé une méthode, PLMdetect [2,3], pour prédire les TF grâce à la détection de TFBS dans les régions proximales des gènes.
Cependant, la régulation génique repose le plus souvent sur l'action combinée de plusieurs TF jouant le rôle de cofacteurs. Pour mieux comprendre les mécanismes contrôlant l'expression des gènes, il est donc indispensable d'identifier quelles combinaisons de TF agissent conjointement sur des ensembles de gènes. Or, tester l'ensemble des combinaisons possibles de FTs et de régions génomiques est irréalisable, tant expérimentalement que computationnellement, en particulier à l'échelle du génome (la plante modèle Arabidopsis thaliana compte environ 2 000 FTs [4]).
L'objectif de ce projet de thèse est de lever ce verrou en prédisant des combinaisons de TF à partir de leurs sites de fixation (TFBS), puis en inférant les interactions entre ces TF grâce à une méthode de machine learning développée au sein de l'équipe, déjà éprouvée pour l'identification de partenaires protéiques d'intérêt.

Développer une approche intégrée, bioinformatique et mathématique, pour prédire les combinaisons de TF à partir des sites de fixation à l'ADN (TFBS), et en inférant les interactions entre ces TF.

1- Prédiction de TF via la prédiction des sites de fixation de ces TF
Sur la base de liste de gènes co-régulés (issue par exemple d'expérience transcriptomiques), la méthode PLMdetect (développées par l'équipe [2,3]) permet d'identifier des PLMs pour Preferentially Located Motifs. Ce sont des motifs d'ADN enrichis en amont ou en aval de gènes co-régulés et qui se trouve préférentiellement à une distance déterminée du site d'initiation de la transcription (TSS pour Transcription Start Site). L'équipe a montré chez Arabidopsis thaliana qu'approximativement 90% de ces PLM correspondent à des TFBS validés expérimentalement (Correa et al. article en préparation). La première partie du projet de thèse consistera à cribler les PLM co-présents sur des gènes co-régulés par clustering gènes-PLM et des études de distance entre PLM. On envisage aussi d'utiliser des outils comme DNA-BERT pour améliorer cette étape. Les PLM correspondant à des TF connus (expérimentalement ou prédits) seront alors proposés pour la phase de prédiction d'interactions TF-TF.
Notre étude (Correa et al. article en préparation) des PLM chez Arabidopsis a montré que leur identification est fortement influencée par la qualité des annotations des TSS, qui même chez Arabidopsis est loin d'être parfaite [5]. Aussi, pour améliorer notre pré-sélection et potentiellement étudier des espèces moins bien annotées qu'Arabidopsis thaliana nous travaillerons à améliorer les annotations des TSS en nous appuyant sur des outils de détection de rupture adaptés à l'analyse de données RNA-seq développé au sein de l'équipe (DiffSegR [6]).
2-Prédiction des interactions cocktail de TFs x cibles ADN
L'équipe a récemment développé récemment une méthode innovante de prédiction des interactions protéine-protéine chez Arabidopsis thaliana [7]. Notre approche consiste à prédire par AlphaFold2 [8] la structure du complexe formé par les deux protéines dont on veut prédire si elles interagissent ou non. Puis, les différents scores de qualité de prédiction obtenus pour chacun des cinq modèles du complexe prédit ainsi que les descripteurs de leur surface d'interaction sont combinés par une méthode de machine learning afin de calculer une probabilité d'interaction permettant de décider si les protéines sont susceptibles d'interagir ou non. Cette méthode a de très bonnes performances, et prédit avec succès environ 70 % des interactions protéine-protéine tout en contrôlant à 5% les faux positifs. Une partie du sujet de thèse consistera à adapter cette méthode à la prédiction des interactions entre cocktails de facteurs de transcription, en se basant cette fois sur les modèles structuraux prédits par AlphaFold3 [9] des complexes formés par deux facteurs de transcription et par leurs ADN cibles. La méthode sera entraînée sur un jeu de 400 paires de TFs d'A. thaliana impliquant 200 TFs différents dont l'interaction a été montrée expérimentalement et sur un jeu de données de paires de TFs de famille différentes, choisies aléatoirement parmi les 1770 TFs d'A. thaliana. Elle sera ensuite utilisée pour prédire les TF candidats prédits via leurs sites de fixation.

Le profil recherché

Candidat·e en bioinformatique/omics avec de solides compétences en IA et en apprentissage automatique, ou profil data science disposant d'une bonne connaissance de la biologie.

Publiée le 17/03/2026 - Réf : 10542eb3a0a2476a31f44682b31f63d7

Thèse Modélisation In Silico des Complexes de Facteurs de Transcription et de leurs Motifs Adn Cibles dans la Régulation du Stress chez les Plantes H/F

Université Paris-Saclay GS Life Sciences and Health
  • Paris - 75
  • CDD
Postuler sur le site du partenaire Publiée le 17/03/2026 - Réf : 10542eb3a0a2476a31f44682b31f63d7

Finalisez votre candidature

sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Derichebourg Hospitality recrutement
Montrouge - 92
CDD
21 500 - 21 600 € / an
Voir l’offre
il y a 15 jours
TESSI GROUPE recrutement
Noisy-le-Grand - 93
CDD
1 823,03 - 1 975 € / mois
Voir l’offre
il y a 3 jours
Haut-de-Seine Habitat OPH recrutement
Voir l’offre
il y a 21 jours
Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact