Complétez votre profil pour recevoir des offres adaptées.

Mon espace

Mes CV vus

Mes candidatures

Mes alertes

Mon profil

Paramètres

Déconnexion

Missions d'intérim
Offres de stage
Offres en alternance
Créer mon alerte
Déposer mon CV
Salaire brut net

Téléchargez l'app et postulez dans les premiers !

Diffuser ma première offre Déjà client

Téléchargez l'app et postulez dans les premiers !

Se connecter S'inscrire Formation

Téléchargez l'app et postulez dans les premiers !

Trouver mon job s

Trouver mon entreprise s

Accès recruteur

Diffuser ma première offre

Déjà client

Emploi

Missions d'intérim

Offres de stage

Offres en alternance

Créer mon alerte

Déposer mon CV

Salaire brut net

Formation

Se connecter

S'inscrire

Trouver mon job s

Trouver mon entreprise s

Mon espace

Mes CV vus

Mes candidatures

Mes alertes

Mon profil

Paramètres

Déconnexion

Hellowork a estimé le salaire pour cette offre

Cette estimation de salaire pour le poste de Thèse Nouvelles Approches d'IA Informées par la Chimie pour la Prédiction Structurale des Métabolites H/F à Paris est calculée grâce à des offres similaires et aux données de l’INSEE.

Cette fourchette est variable selon expérience.

Annuel Mensuel Horaire

Salaire brut min

40 500 € / an 3 375 € / mois 22,25 € / heure

Salaire brut estimé

51 200 € / an 4 267 € / mois 28,13 € / heure

Salaire brut max

67 500 € / an 5 625 € / mois 37,09 € / heure

Cette information vous semble-t-elle utile ?

Merci pour votre retour !

Thèse Nouvelles Approches d'IA Informées par la Chimie pour la Prédiction Structurale des Métabolites H/F
Université Paris-Saclay GS Informatique et sciences du numérique

Paris - 75
CDD
Bac +5
Service public d'état

Lire dans l'app

Détail du poste

Établissement : Université Paris-Saclay GS Informatique et sciences du numérique
École doctorale : Sciences et Technologies de l'Information et de la Communication
Laboratoire de recherche : Médicaments et Technologies pour la Santé
Direction de la thèse : Etienne THEVENOT ORCID 0000000310194577
Début de la thèse : 2026-12-01
Date limite de candidature : 2026-04-30T23:59:59

L'identification des métabolites est essentielle en santé pour comprendre les mécanismes physiopathologiques, découvrir des biomarqueurs et développer de nouveaux traitements. En particulier, la caractérisation des métabolites produits par le microbiote intestinal humain est une thématique majeur pour faire progresser les stratégies nutritionnelles et thérapeutiques. La spectrométrie de masse en tandem couplée à la chromatographie liquide (LC-HRMS/MS) est la technologie de référence pour la détection de petites molécules dans les échantillons biologiques, mais l'identification est limitée par la diversité chimique des métabolites et la taille des bases de données spectrales existantes. Pour pallier ces limitations, des méthodes d'apprentissage automatique ont été développées ces dernières années afin de retrouver la structure moléculaire à partir du spectre MS/MS, en prédisant des empreintes moléculaires à partir de représentations spectrales sous forme d'ensembles ou d'arbres de sous-formules chimiques. Cependant, les performances des outils logiciels existants restent inférieures à celles de l'interprétation manuelle, et ces approches automatiques manquent généralement d'interprétabilité. En s'appuyant sur notre double expertise en informatique mathématique et en chimie analytique, nous proposons dans ce projet doctoral une nouvelle génération d'algorithmes d'apprentissage automatique pour l'élucidation structurale, utilisant 1) une nouvelle représentation des spectres sous forme de graphes pour structurer les données d'entrée grâce aux connaissances chimiques, 2) une régularisation du problème inverse en imposant une contrainte de similarité entre le spectre d'entrée et celui simulé à partir du métabolite prédit, 3) des méthodes d'apprentissage basées sur les concepts pour fournir des résultats interprétables et 4) de nouvelles bases de données spectrales multiplexées, développées en interne et enrichies d'informations structurales, pour entraîner les modèles. Ces nouvelles méthodes seront évaluées sur des jeux de données de référence et appliquées à l'étude du microbiote intestinal humain, pour la découverte de nouveaux métabolites probiotiques à impact sur la santé et de biomarqueurs cliniques pour le suivi des maladies hépatiques chroniques.

The discovery of small organic compounds is a major challenge in many fundamental and applied areas, including health, food, and environment (Giera et al., 2022). In living organisms, these molecules (called metabolites) are central to biochemical reactions, and as such represent key indicators of physiological and pathological states. In particular, the identification of gut microbiota metabolites is of major importance since they profoundly impact human health (Treuren and Dodd, 2020), but remain poorly characterized. High-resolution mass spectrometry coupled to liquid chromatography (LC-HRMS) is the reference approach for the global characterization of metabolites (metabolomics) (Castelli et al., 2021). To identify the detected metabolites (i.e., to assign the 2D chemical structure), modern instruments include a second analyser after fragmentation of the molecule. Due to the vast chemical diversity of metabolites and the limited size of spectral databases, however, fewer than 5% of these MS/MS spectra usually match known references.
To address these limitations, Machine Learning (ML) methodologies have been developed (Russo et al., 2024). The problem of mass-spectrum-to-metabolite prediction is very complex in terms of ML, as it corresponds to a Structured Prediction task where the target variable is a labelled graph. The best performing strategy focuses on supervised molecule retrieval, leveraging a metabolite candidate set at inference time (Dührkop et al., 2015). The task consists in two steps: first a surrogate regression/classification problem is solved to provide fingerprints or other feature representations of molecules, and at inference time, a decoding step consists in matching the predicted molecular fingerprints against molecular databases to rank candidate structures. In this context, a general framework based on kernel-induced losses has been introduced, instantiated as Input Output Kernel Regression (IOKR) that offers an alternative approach with distinct advantages (Brouard et al., 2016). By directly modelling the structure of the output space and decreasing computational time (Brouard et al., 2019), IOKR has shown promise in CASMI challenges (Schymanski et al., 2017). This framework was recently extended to deploy kernel-induced losses to more expressive deep neural networks (DSOKR approach (El Ahmad et al., 2024), which has not yet been applied to spectra). Alternatively, deep learning alternatives have been proposed for predicting molecular fingerprints, e.g., through transformers applied to spectral representations as sets of chemical subformulas (Goldman et al., 2023). Nevertheless, despite increasing research interest, substantial challenges persist and the performance of the existing software tools still lag behind manual elucidation by a human expert.

Drawing on our knowledge of the problem of structural elucidation, we propose in this project a new generation of machine learning algorithms that tackle the main challenges of molecular retrieval. First, given the limited size of databases, one of the keys to improving model performance is to enrich and structure the spectral input information using chemical knowledge. We propose to integrate a new representation of the spectra as fragmentation graphs (Delabrière et al., 2025). Second, unlike the reverse problem of metabolite identification, the forward problem of generating a mass spectrum from a known molecule (Nguyen et al., 2024) is well-posed and more tractable. We believe that leveraging this direct mapping during training could help regularize the inverse problem by enforcing consistency between predicted metabolites and their reconstructed spectra. Third, to address the scarcity of annotated data, the developed methods will be trained on multiplexed spectral databases produced in the laboratory that enrich the structural information by varying the fragmentation conditions (Damont et al., 2025).

1) Representation learning of spectral data based on fragmentation graphs
Based on our framework that couples deep neural networks to kernel-induced losses (El Ahmad et al., 2024), we will develop a transformer-based encoder optimized for the multiplexed spectral features. Additionally, we will incorporate our recently developed graphs of mass differences as chemical models of the fragmentation process (Delabrière et al., 2025).
2) Concept-based learning for chemical interpretability
We will leverage our experience in concept-based learning combined with current works on transformer explainability to identify properties on subsets of MS peaks that lead to given motifs in the prediction.
3) Metabolite representations based on contrastive learning and molecule autoencoders
We will investigate different vector representation to provide the best set of predictions. Classic fingerprints and kernel features will be compared to novel representations through deep contrastive learning (Yang et al., 2024) or by leveraging novel molecule autoencoders based on Optimal Transport (Krzakala et al., 2025).
4) Chemistry-informed approach by taking into account the forward model
We will adapt existing forward models into differentiable components that can be incorporated into our learning framework as a regularization term between the original and the simulated one form the predicted structure.

Le profil recherché

Nous recherchons un.e candidat.e avec un très bon dossier en mathématiques appliquées (apprentissage statistique, théorie des graphes) et motivé.e par les applications multidisciplinaires (chimie).

Publiée le 17/03/2026 - Réf : b6dd2baf7dfddd56872e78d947133dea

Créez votre compte Hellowork et activez votre alerte

Métier

Localité

Type de contrat

CDI

CDD

Intérim

Stage

Alternance

Indépendant

Franchise

Associé

Fonctionnaire

Freelance

Stage de lycée

Thèse Nouvelles Approches d'IA Informées par la Chimie pour la Prédiction Structurale des Métabolites H/F

Université Paris-Saclay GS Informatique et sciences du numérique

Paris - 75
CDD

Postuler sur le site du partenaire Publiée le 17/03/2026 - Réf : b6dd2baf7dfddd56872e78d947133dea

Postuler sur le site du partenaire

Finalisez votre candidature
sur le site du partenaire

Créez votre compte
Hellowork et postulez
sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Gestionnaire Applicatif Run H/F

Spie Operations

Cergy - Pontoise - 95

CDI

Voir l’offre

il y a 20 jours

Data Scientist Confirmé H/F

MP Data

Paris - 75

CDI

Voir l’offre

il y a 15 jours

Data Scientist - Machine Learning Engineer H/F

AIR FRANCE

Roissy-en-Brie - 77

CDI

Télétravail partiel

Voir l’offre

il y a 24 jours

Voir plus d'offres

Recherches similaires

Job Ingénieur en intelligence artificielle
Job Data et IA
Job Business analyst
Job Data engineer
Job Data analyst
Job Data scientist
Job Data manager
Entreprises Data et IA
Entreprises Ingénieur en intelligence artificielle
Entreprises Paris

Initialisation…

Testez votre correspondance

Chargement du chat...

Accueil
Job
Job Paris
Job Data et IA Paris
Job Ingénieur en intelligence artificielle Paris
Thèse Nouvelles Approches d'IA Informées par la Chimie pour la Prédiction Structurale des Métabolites H/F

Les sites

HelloCV
Helloworkplace
BDM
Jobijoba
Maformation
Diplomeo

L'emploi

Offres d'emploi par métier
Offres d'emploi par ville
Offres d'emploi par entreprise
Offres d'emploi par mots clés

L'entreprise

Qui sommes-nous ?
On recrute
Accès client

Les apps

Nous suivre sur :

Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact

Thèse Nouvelles Approches d'IA Informées par la Chimie pour la Prédiction Structurale des Métabolites H/F Université Paris-Saclay GS Informatique et sciences du numérique

Détail du poste

Le profil recherché

Finalisez votre candidature sur le site du partenaire Créez votre compte Hellowork et postulez sur le site du partenaire !

Ces offres pourraient aussi vous intéresser

Recherches similaires

Thèse Nouvelles Approches d'IA Informées par la Chimie pour la Prédiction Structurale des Métabolites H/F
Université Paris-Saclay GS Informatique et sciences du numérique

Finalisez votre candidature
sur le site du partenaire

Créez votre compte
Hellowork et postulez
sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser