Détail du poste
Établissement : Université de Lorraine École doctorale : IAEM - INFORMATIQUE - AUTOMATIQUE - ELECTRONIQUE - ELECTROTECHNIQUE - MATHEMATIQUES Laboratoire de recherche : LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications Direction de la thèse : Romain SERIZEL ORCID 0000000268480114 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-31T23:59:59 Motivations
Dans de nombreuses applications de communication vocale, comme les systèmes de conférence ou les aides auditives, les microphones captent non seulement la parole de la personne souhaitée, mais aussi le bruit ambiant, les autres locuteurs concurrents et les réverbérations, c'est-à-dire les réflexions acoustiques des murs et autres objets. Pour améliorer la qualité et l'intelligibilité de la parole enregistrée, divers algorithmes d'amélioration de la parole, basés sur des modèles ou sur l'apprentissage profond, ont été proposés. Ceux-ci visent à supprimer le bruit et la réverbération indésirables sans déformer la parole de la personne souhaitée [1], [2]. En général, les algorithmes multi-microphones surpassent les algorithmes mono-microphone, car ils peuvent exploiter non seulement les informations spectro-temporelles, mais aussi l'information spatiale du champ sonore.
En considérant plusieurs dispositifs spatialement distribués, il est possible d'acquérir des informations plus détaillées sur le champ sonore, et d'augmenter la probabilité que certains microphones soient plus proches des sources sonores (désirables ou indésirables). Cependant, contrairement aux réseaux de microphones traditionnels, les réseaux de capteurs acoustiques peuvent être très dynamiques : le nombre et la position des dispositifs ne sont pas connus et peuvent même varier dans le temps. Pour soutenir l'amélioration de la parole multi-microphone, des méthodes d'estimation de paramètres acoustiques de l'environnement, tels que le temps de réverbération, la géométrie de la pièce ou les réflexions acoustiques, peuvent fournir des informations précieuses [3].
Objectifs
Lors de cette thèse, nous explorerons comment intégrer explicitement les paramètres de la scène acoustique dans la fonction de perte des algorithmes d'amélioration de la parole. Cette approche vise à améliorer les performances du modèle en fournissant des informations supplémentaires pendant l'apprentissage. Une méthode possible est l'apprentissage multi-tâches, où le modèle est entraîné à effectuer plusieurs tâches liées simultanément. Par exemple, le modèle peut être formé pour extraire la parole tout en estimant des paramètres acoustiques comme le temps de réverbération ou les positions des réseaux de microphones [4]. L'objectif est d'incorporer des connaissances acoustiques dans le modèle et d'améliorer sa robustesse face à différents environnements acoustiques.
Une alternative à l'apprentissage multi-tâches est l'apprentissage adversarial [5], où le modèle est délibérément entraîné sur des entrées modifiées de manière adversariale pour forcer des erreurs de prédiction. La motivation principale derrière ces approches est de permettre au modèle de dissocier la parole cible des autres paramètres de la scène. Ainsi, le modèle devient plus robuste face aux changements de conditions acoustiques, comme les variations de position des réseaux de microphones. Cette thèse s'inscrit dans le cadre du projet ANR-DFG AWESOME. Le projet rassemble des chercheurs de l'Université de Lorraine/LORIA à Nancy (France), de l'INRIA à Strasbourg (France) et du Département de physique médicale et d'acoustique de l'Université d'Oldenburg à Oldenburg (Allemagne).
This PhD takes place within the ANR-DFG project AWESOME. The project involves researchers from Université de Lorraine/LORIA in Nancy (France), INRIA in Strasbourg (France) and Dept. of Medical Physics and Acoustics at the University of Oldenburg in Oldenburg (Germany).
Le profil recherché
Formation en apprentissage profond et traitement du signal. Des connaissances ou un intérêt pour l'audio, l'acoustique, les méthodes numériques ou l'optimisation sont des atouts supplémentaires.
Niveau master 2 (en informatique, traitement du signal, apprentissage machine, acoustique ou mathématiques appliquées) avec un fort intérêt pour la recherche académique.
Publiée le 14/04/2026 - Réf : 44d2ff566b9356a1cb4fbdcd9061cc4a