Aller au contenu principal

Thèse Nouvelles Approches d'IA Informées par la Chimie pour la Prédiction Structurale des Métabolites H/F

Université Paris-Saclay GS Informatique et sciences du numérique

  • Paris - 75
  • CDD
  • Bac +5
  • Service public d'état
Lire dans l'app

Détail du poste

Établissement : Université Paris-Saclay GS Informatique et sciences du numérique
École doctorale : Sciences et Technologies de l'Information et de la Communication
Laboratoire de recherche : Médicaments et Technologies pour la Santé
Direction de la thèse : Etienne THEVENOT ORCID 0000000310194577
Début de la thèse : 2026-12-01
Date limite de candidature : 2026-04-30T23:59:59

L'identification des métabolites est essentielle en santé pour comprendre les mécanismes physiopathologiques, découvrir des biomarqueurs et développer de nouveaux traitements. En particulier, la caractérisation des métabolites produits par le microbiote intestinal humain est une thématique majeur pour faire progresser les stratégies nutritionnelles et thérapeutiques. La spectrométrie de masse en tandem couplée à la chromatographie liquide (LC-HRMS/MS) est la technologie de référence pour la détection de petites molécules dans les échantillons biologiques, mais l'identification est limitée par la diversité chimique des métabolites et la taille des bases de données spectrales existantes. Pour pallier ces limitations, des méthodes d'apprentissage automatique ont été développées ces dernières années afin de retrouver la structure moléculaire à partir du spectre MS/MS, en prédisant des empreintes moléculaires à partir de représentations spectrales sous forme d'ensembles ou d'arbres de sous-formules chimiques. Cependant, les performances des outils logiciels existants restent inférieures à celles de l'interprétation manuelle, et ces approches automatiques manquent généralement d'interprétabilité. En s'appuyant sur notre double expertise en informatique mathématique et en chimie analytique, nous proposons dans ce projet doctoral une nouvelle génération d'algorithmes d'apprentissage automatique pour l'élucidation structurale, utilisant 1) une nouvelle représentation des spectres sous forme de graphes pour structurer les données d'entrée grâce aux connaissances chimiques, 2) une régularisation du problème inverse en imposant une contrainte de similarité entre le spectre d'entrée et celui simulé à partir du métabolite prédit, 3) des méthodes d'apprentissage basées sur les concepts pour fournir des résultats interprétables et 4) de nouvelles bases de données spectrales multiplexées, développées en interne et enrichies d'informations structurales, pour entraîner les modèles. Ces nouvelles méthodes seront évaluées sur des jeux de données de référence et appliquées à l'étude du microbiote intestinal humain, pour la découverte de nouveaux métabolites probiotiques à impact sur la santé et de biomarqueurs cliniques pour le suivi des maladies hépatiques chroniques.

The discovery of small organic compounds is a major challenge in many fundamental and applied areas, including health, food, and environment (Giera et al., 2022). In living organisms, these molecules (called metabolites) are central to biochemical reactions, and as such represent key indicators of physiological and pathological states. In particular, the identification of gut microbiota metabolites is of major importance since they profoundly impact human health (Treuren and Dodd, 2020), but remain poorly characterized. High-resolution mass spectrometry coupled to liquid chromatography (LC-HRMS) is the reference approach for the global characterization of metabolites (metabolomics) (Castelli et al., 2021). To identify the detected metabolites (i.e., to assign the 2D chemical structure), modern instruments include a second analyser after fragmentation of the molecule. Due to the vast chemical diversity of metabolites and the limited size of spectral databases, however, fewer than 5% of these MS/MS spectra usually match known references.
To address these limitations, Machine Learning (ML) methodologies have been developed (Russo et al., 2024). The problem of mass-spectrum-to-metabolite prediction is very complex in terms of ML, as it corresponds to a Structured Prediction task where the target variable is a labelled graph. The best performing strategy focuses on supervised molecule retrieval, leveraging a metabolite candidate set at inference time (Dührkop et al., 2015). The task consists in two steps: first a surrogate regression/classification problem is solved to provide fingerprints or other feature representations of molecules, and at inference time, a decoding step consists in matching the predicted molecular fingerprints against molecular databases to rank candidate structures. In this context, a general framework based on kernel-induced losses has been introduced, instantiated as Input Output Kernel Regression (IOKR) that offers an alternative approach with distinct advantages (Brouard et al., 2016). By directly modelling the structure of the output space and decreasing computational time (Brouard et al., 2019), IOKR has shown promise in CASMI challenges (Schymanski et al., 2017). This framework was recently extended to deploy kernel-induced losses to more expressive deep neural networks (DSOKR approach (El Ahmad et al., 2024), which has not yet been applied to spectra). Alternatively, deep learning alternatives have been proposed for predicting molecular fingerprints, e.g., through transformers applied to spectral representations as sets of chemical subformulas (Goldman et al., 2023). Nevertheless, despite increasing research interest, substantial challenges persist and the performance of the existing software tools still lag behind manual elucidation by a human expert.

Drawing on our knowledge of the problem of structural elucidation, we propose in this project a new generation of machine learning algorithms that tackle the main challenges of molecular retrieval. First, given the limited size of databases, one of the keys to improving model performance is to enrich and structure the spectral input information using chemical knowledge. We propose to integrate a new representation of the spectra as fragmentation graphs (Delabrière et al., 2025). Second, unlike the reverse problem of metabolite identification, the forward problem of generating a mass spectrum from a known molecule (Nguyen et al., 2024) is well-posed and more tractable. We believe that leveraging this direct mapping during training could help regularize the inverse problem by enforcing consistency between predicted metabolites and their reconstructed spectra. Third, to address the scarcity of annotated data, the developed methods will be trained on multiplexed spectral databases produced in the laboratory that enrich the structural information by varying the fragmentation conditions (Damont et al., 2025).

1) Representation learning of spectral data based on fragmentation graphs
Based on our framework that couples deep neural networks to kernel-induced losses (El Ahmad et al., 2024), we will develop a transformer-based encoder optimized for the multiplexed spectral features. Additionally, we will incorporate our recently developed graphs of mass differences as chemical models of the fragmentation process (Delabrière et al., 2025).
2) Concept-based learning for chemical interpretability
We will leverage our experience in concept-based learning combined with current works on transformer explainability to identify properties on subsets of MS peaks that lead to given motifs in the prediction.
3) Metabolite representations based on contrastive learning and molecule autoencoders
We will investigate different vector representation to provide the best set of predictions. Classic fingerprints and kernel features will be compared to novel representations through deep contrastive learning (Yang et al., 2024) or by leveraging novel molecule autoencoders based on Optimal Transport (Krzakala et al., 2025).
4) Chemistry-informed approach by taking into account the forward model
We will adapt existing forward models into differentiable components that can be incorporated into our learning framework as a regularization term between the original and the simulated one form the predicted structure.

Le profil recherché

Nous recherchons un.e candidat.e avec un très bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie).

Publiée le 17/03/2026 - Réf : b6dd2baf7dfddd56872e78d947133dea

Thèse Nouvelles Approches d'IA Informées par la Chimie pour la Prédiction Structurale des Métabolites H/F

Université Paris-Saclay GS Informatique et sciences du numérique
  • Paris - 75
  • CDD
Postuler sur le site du partenaire Publiée le 17/03/2026 - Réf : b6dd2baf7dfddd56872e78d947133dea

Finalisez votre candidature

sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Spie Operations recrutement
Voir l’offre
il y a 20 jours
MP Data recrutement
Voir l’offre
il y a 15 jours
AIR FRANCE recrutement
Roissy-en-Brie - 77
CDI
Télétravail partiel
Voir l’offre
il y a 24 jours
Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact