Hellowork a estimé le salaire pour cette offre
Cette estimation de salaire pour le poste de Thèse IA Générative Géométriquement Informée pour la Synthèse Audio en Temps Réel H/F à Paris est calculée grâce à des offres similaires et aux données de l’INSEE.
Cette fourchette est variable selon expérience.
Salaire brut min
40 500 € / an 3 375 € / mois 22,25 € / heureSalaire brut estimé
51 200 € / an 4 267 € / mois 28,13 € / heureSalaire brut max
67 500 € / an 5 625 € / mois 37,09 € / heureCette information vous semble-t-elle utile ?
Merci pour votre retour !
Thèse IA Générative Géométriquement Informée pour la Synthèse Audio en Temps Réel H/F
Institut Polytechnique de Paris Télécom Paris
- Paris - 75
- CDD
- Bac +5
- Service public d'état
Permis et certifications
- Habilitation électrique H0
Ces informations ont été extraites par Hellowork et résumées pour faciliter la lecture.
Permis et certifications
Ces informations ont été extraites par Hellowork et résumées pour faciliter la lecture.
- Habilitation électrique H0
Les missions du poste
L'intelligence artificielle générative a récemment transformé la synthèse de signaux complexes tels que la parole, les sons environnementaux ou la musique. Les modèles modernes, en particulier les modèles de diffusion, permettent aujourd'hui de produire des signaux audio d'une qualité perceptive très élevée (Ho et al., 2020 ; Kong et al., 2021 ; Borsos et al., 2023). Toutefois, ces approches reposent sur des procédures d'échantillonnage itératives nécessitant plusieurs dizaines voire centaines d'étapes de calcul (Song et al., 2021 ; Karras et al., 2022), ce qui limite fortement leur utilisation dans des contextes nécessitant une génération à faible latence ou en temps réel.
L'hypothèse scientifique centrale de cette thèse est que la stabilité et l'efficacité des modèles génératifs rapides peuvent être significativement améliorées en intégrant explicitement la géométrie riemannienne des espaces de représentation dans l'apprentissage des dynamiques génératives. Alors que la plupart des travaux actuels cherchent à accélérer les modèles génératifs par des stratégies d'architecture ou de distillation (Salimans & Ho, 2022 ; Song et al., 2023), cette thèse propose une approche conceptuellement différente consistant à contrôler la géométrie des trajectoires génératives.
Les approches récentes basées sur les rectified flows et le flow matching offrent une formulation alternative de la génération de données : la transformation d'un bruit aléatoire vers la distribution cible est modélisée par l'intégration d'un champ de vitesse appris (Liu et al., 2022 ; Lipman et al., 2023). En théorie, ces modèles permettent une génération en très peu d'étapes. En pratique, leur stabilité dépend fortement des propriétés géométriques des trajectoires génératives : des champs de vitesse présentant une forte courbure peuvent introduire des erreurs d'intégration importantes lorsque le nombre d'étapes est faible.
Dans de nombreux problèmes d'apprentissage automatique, les données sont supposées résider sur des variétés de dimension intrinsèque faible dans les espaces de représentation. Cette observation, au coeur du geometric deep learning (Bronstein et al., 2021), suggère que les dynamiques génératives devraient idéalement suivre la géométrie intrinsèque de ces variétés. Des travaux récents ont commencé à étendre les modèles génératifs aux variétés riemanniennes (Mathieu & Nickel, 2020 ; De Bortoli et al., 2022 ; Chen & Lipman, 2024), mais ces approches restent encore peu explorées dans le contexte des modèles génératifs rapides et quasiment inexistantes pour la génération audio.
Cette thèse propose donc de développer un cadre de Riemannian Flow Matching pour la génération rapide de signaux audio, dans lequel la géométrie du champ de transport est explicitement régularisée. Plusieurs contraintes géométriques seront étudiées : alignement du champ de vitesse avec l'espace tangent de la variété des données, contrôle de la courbure des trajectoires génératives, et régularisation dans des espaces perceptuels issus de modèles audio de grande taille (Wu et al., 2024).
En améliorant la régularité géométrique des dynamiques génératives, ces méthodes devraient permettre une génération fiable avec très peu d'étapes d'intégration, ouvrant la voie à de nouvelles applications d'IA générative interactive et temps réel. Bien que la musique constitue un domaine expérimental privilégié en raison de sa richesse structurelle, les contributions méthodologiques attendues concernent plus largement la génération rapide de données structurées, avec des applications potentielles en synthèse vocale interactive, réalité virtuelle sonore ou génération multimodale.
This project lies at the intersection of generative AI, geometric deep learning, and audio signal processing.
Diffusion models have revolutionized generative modeling (Ho et al., 2020; Song et al., 2021), enabling high-quality synthesis of complex signals. However, their computational cost remains a major obstacle for interactive or real-time applications.
Flow-based generative models such as rectified flows and flow matching (Liu et al., 2022; Lipman et al., 2023) offer a promising direction toward few-step generation.
At the same time, research in geometric deep learning has emphasized that many real-world datasets lie on structured manifolds embedded in high-dimensional spaces (Bronstein et al., 2021). Extending generative models to Riemannian manifolds provides a principled way to incorporate this geometric structure (Mathieu & Nickel, 2020; De Bortoli et al., 2022; Chen & Lipman, 2024).
This PhD aims to combine these perspectives by investigating how Riemannian geometric constraints can improve the stability, efficiency, and controllability of generative models, particularly in the context of real-time generative AI systems.
1 - Characterize the geometry of generative transport dynamics
The first objective is to analyze the dynamical properties of rectified-flow models applied to audio representations. The research will study trajectory curvature, velocity-field smoothness, and deviation from the data manifold during generation. These analyses will help identify the geometric factors that limit the stability of few-step generative models.
2 - Develop Riemannian regularization methods for generative flows
The project will design novel regularization techniques inspired by Riemannian geometry to constrain the velocity fields learned by generative models. These techniques will include tangent-space alignment constraints, curvature control, and metric-aware smoothness penalties to ensure that generative trajectories remain consistent with the intrinsic structure of the data manifold.
3 - Enable real-time generative AI
A central objective is to demonstrate that geometry-aware regularization can enable high-quality generation with extremely small numbers of integration steps. This would allow the development of real-time generative AI systems capable of interactive audio synthesis and creative applications.
4 - Evaluate generalization across domains
Although music will serve as the main experimental domain, the project will investigate whether the proposed techniques generalize to other audio domains such as speech and environmental sounds, and potentially to multimodal representation spaces used by foundation models.
5 - Link geometry with perceptual structure
The project will investigate the relationship between the geometry of generative trajectories and perceptual properties of audio signals using perceptual metrics such as FAD (Kilgour et al., 2019) and listening experiments.
Le profil recherché
- en traitement du signal audio,
- en apprentissage machine, en particulier concernant les techniques d'apprentissage profond et de flow-matching.
Par ailleurs, de bonnes aptitudes à la programmation python, à la rédaction de rapport et à l'expression orale sont indispensables.
Bienvenue chez Institut Polytechnique de Paris Télécom Paris
École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris
Laboratoire de recherche : Laboratoire de Traitement et Communication de l'Information
Direction de la thèse : Geoffroy PEETERS ORCID 0000000152553019
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-04-15T23:59:59
Publiée le 17/03/2026 - Réf : 4843b71bd121d918d9fac8c1b9a6818c
Créez votre compte Hellowork et activez votre alerte
Thèse IA Générative Géométriquement Informée pour la Synthèse Audio en Temps Réel H/F
- Paris - 75
- CDD
Finalisez votre candidature
sur le site du
partenaire
Créez votre compte
Hellowork et postulez
sur le site du
partenaire !
sur le site du partenaire
Hellowork et postulez
sur le site du partenaire !
Ces offres pourraient aussi
vous intéresser
Testez votre correspondance
Chargement du chat...
{{title}}
{{message}}
{{linkLabel}}