Aller au contenu principal
CNRS recrutement

Ingénieur Reconnaissance Automatique de la Parole de Locuteurs Non Natifs dans un Environnement Bruyant H/F CNRS

Vandœuvre-lès-Nancy - 54
CDD
Résumé de l'offre
  • Service public des collectivités territoriales

Détail du poste

Contexte
Lorsqu'une personne a les mains occupées à effectuer une tâche comme conduire une voiture ou piloter un avion, la voix est un moyen rapide et efficace d'établir une interaction. Dans les communications aéronautiques, la langue anglaise est le plus souvent obligatoire. Malheureusement, une grande partie des pilotes ne sont pas anglophones et parlent avec un accent dépendant de leur langue maternelle et sont donc influencés par les mécanismes de prononciation de cette langue. Dans un cockpit d'avion, les prononciations non natives et les bruits environnants sont des défis difficiles à surmonter afin d'avoir une reconnaissance automatique de la parole (RAP) efficace. Les problèmes de la parole non native sont nombreux : prononciations incorrectes ou approximatives, erreurs d'accord en genre et en nombre, utilisation de mots inexistants, articles manquants, phrases grammaticalement incorrectes, etc. L'environnement acoustique ajoute une composante perturbatrice au signal de parole. Une grande partie du succès de la reconnaissance vocale repose sur la capacité à prendre en compte différents accents et bruits ambiants dans les modèles utilisés par la RAP.
La reconnaissance automatique de la parole a fait de grands progrès grâce au développement spectaculaire du deep learning. Ces dernières années, la reconnaissance vocale automatique de bout en bout, qui optimise directement la probabilité de la séquence de caractères de sortie en fonction des caractéristiques acoustiques d'entrée, a fait de grands progrès [Chan et al., 2016 ; Baevski et al., 2020 ; Gulati, et al., 2020].
Activités
Objectifs
La personne recrutée devra développer des méthodologies et des outils afin d'obtenir une reconnaissance automatique de la parole non native performante dans le contexte aéronautique et plus spécifiquement dans un cockpit d'avion (bruyant).
Ce projet sera fondé sur un système de reconnaissance vocale automatique de bout en bout [Shi et al., 2021]
Réferences
[Baevski et al., 2020] A. Baevski, H. Zhou, A. Mohamed, and M. Auli. Wav2vec 2.0 : A framework for self-supervised learning of speech representations, 34th Conference on Neural Information Processing Systems (NeurIPS 2020), 2020.
[Chan et al., 2016] W. Chan, N. Jaitly, Q. Le and O. Vinyals. Listen, attend and spell : A neural network for large vocabulary conversational speech recognition. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp. 4960-4964, 2016.
[Chorowski et al., 2017] J. Chorowski, N. Jaitly. Towards better decoding and language model integration in sequence to sequence models. Interspeech, 2017.
[Houlsby et al., 2019] N. Houlsby, A. Giurgiu, S. Jastrzebski, B. Morrone, Q. De Laroussilhe, A. Gesmundo, M. Attariyan, S. Gelly. Parameter-efficient transfer learning for NLP. International Conference on Machine Learning, PMLR, pp. 2790-2799, 2019.
[Gulati et al., 2020] A. Gulati, J. Qin, C.-C. Chiu, N. Parmar, Y. Zhang, J. Yu, W. Han, S. Wang, Z. Zhang, Y. Wu, and R. Pang. Conformer : Convolution-augmented transformer for speech recognition. Interspeech, 2020.
[Shi et al., 2021] X. Shi, F. Yu, Y. Lu, Y. Liang, Q. Feng, D. Wang, Y. Qian, and L. Xie. The accented english speech recognition challenge 2020 : open datasets, tracks, baselines, results and methods. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6918-6922, 2021.
Compétences
compétences :
- Master en traitement de la parole / audio, vision par ordinateur, apprentissage automatique ou dans un domaine connexe,
- Capacité à travailler aussi bien en autonomie qu'en équipe,
- Solides compétences en programmation (Python, PyTorch) et connaissances approfondies en apprentissage,
- Anglais écrit et parlé
Contexte de travail

Equipe Multispeech du laboratoire Loria-CNRS à Nancy
Contraintes et risques
- Les candidatures seront examinées sous réserve des exigences de la Direction générale de l'armement (DGA).

L'adresse du poste

Localisez l'entreprise et calculez votre temps de trajet en un clic !

Calculer mon temps de trajet

Ingénieur Reconnaissance Automatique de la Parole de Locuteurs Non Natifs dans un Environnement Bruyant H/F
  • Vandœuvre-lès-Nancy - 54
  • CDD
Publiée le 23/06/2025 - Réf : UMR7503-IRIILL-004 Nombre de Postes

Finalisez votre candidature

sur le site du recruteur

Créez votre compte pour postuler

sur le site du recruteur !

Voir plus d'offres
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Application Android (nouvelle fenêtre) Application ios (nouvelle fenêtre)
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact