Détail du poste
Établissement : Université de Picardie - Jules Verne École doctorale : Sciences, Technologie, Santé Laboratoire de recherche : MIS - Unité de recherche Modélisation, Information et Systèmes Direction de la thèse : Catherine HUYGHE ORCID 0000000323086321 Début de la thèse : 2026-10-01 Date limite de candidature : 2026-05-15T23:59:59 Le projet porte sur la conception d'un système de génération linguistique contrôlée à partir de séquences de pictogrammes, destiné aux dispositifs de Communication Améliorée et Alternative (CAA). La CAA permet à une population présentant des difficultés d'expression orale d'accéder à des moyens alternatifs et adaptés pour communiquer, en mobilisant différents canaux comme les pictogrammes. Bien que les CAA aient considérablement progressé, la production de messages repose souvent sur une simple succession de pictogrammes, limitant ainsi la construction d'énoncés complets et adaptés au contexte. Les avancées récentes de l'IA générative ouvrent de nouvelles perspectives, mais leur déploiement en CAA reste entravé par un manque de contrôle linguistique et par contraintes de calculs des appareils utilisés sur le terrain.
Le projet propose de développer un modèle de génération linguistique contrôlée capable de produire des phrases grammaticalement correctes, cohérentes et conformes à l'intention communicative du public concerné. L'approche repose sur une architecture hybride combinant modèles neuronaux et contraintes linguistiques explicites, de manière à garantir la qualité grammaticale et sémantique des messages générés. Une attention particulière sera portée à la conception d'un modèle frugal pouvant fonctionner sur des dispositifs à ressources limitées grâce à des stratégies de compression, d'optimisation et à l'intégration de règles linguistiques permettant de réduire la charge de calcul.
Ce projet de thèse s'inscrit à l'intersection de l'intelligence artificielle, de la linguistique et de la psychologie du développement en mobilisant les compétences des laboratoires MIS et CRP-CPO. Il s'ancre également dans le champ industriel grâce à une collaboration avec la société Dyscoveri, qui facilitera l'intégration des développements dans des outils opérationnels et leur mise à l'épreuve en contexte d'usage.
Le projet porte sur le développement d'un outil fondé sur l'Intelligence Artificielle (IA) générative, capable de produire des phrases linguistiquement correctes et sémantiquement cohérentes à partir de séquences de mots ou de pictogrammes. Cet outil sera doté de mécanismes de vérification linguistique visant à évaluer et corriger automatiquement la validité grammaticale et syntaxique des phrases générées, en prenant en compte le contexte et l'intention de communication de l'utilisateur.
Aujourd'hui, de multiples approches ont été développées pour améliorer la génération de texte. Parmi elles, celles basées sur des modèles d'IA générative de type Large Language Models (LLM), tels que GPT-4 (OpenAI), DeepSeek (DeepSeek) ou Mistral (Mistral AI), sont devenues courantes. Ces modèles, entraînés sur de vastes corpus textuels, permettent de compléter dynamiquement des séquences partielles et de produire des phrases cohérentes sans dépendre explicitement de grammaires formelles.
Cependant, leur utilisation dans le contexte de la Communication Alternative et Améliorée (CAA) présente plusieurs limites. La génération reste difficile à contrôler, et des problèmes d'incohérence ou d'ambiguïté sémantique apparaissent fréquemment, du fait de la complexité à intégrer un contrôle linguistique explicite. De plus, la charge de calcul importante requise pour ces modèles rend leur déploiement peu compatible avec un usage local, sur des terminaux légers ou hors connexion.
Les objectifs scientifiques et techniques du projet sont :
- La modélisation d'un processus de génération linguistique contrôlé, capable de transformer des séquences de pictogrammes en phrases grammaticalement correctes et cohérentes avec l'intention de communication de l'utilisateur ;
- L'intégration d'un mécanisme de vérification linguistique interne au modèle, combinant des critères syntaxiques, sémantiques et contextuels, afin de limiter les erreurs ou dérives sémantiques souvent observées dans les modèles de langage non contraints ;
- L'exploration des stratégies d'optimisation permettant de réduire la taille du modèle tout en maintenant une performance suffisante ;
- L'évaluation de la pertinence communicative des phrases générées ;
- L'évaluation de l'approche sur d'autres langues, afin de tester sa robustesse et son adaptation à différents contextes linguistiques.
Le profil recherché
Le candidat doit démontrer une capacité d'analyse et de résolution de problèmes, et une aptitude à travailler de manière autonome et au sein de plusieurs partenaires (académique et industriel). Une capacité à communiquer clairement, tant à l'écrit qu'à l'oral, et un intérêt pour les applications sociales de l'IA seront également fortement appréciés.
Publiée le 17/04/2026 - Réf : b0ae54bd6665a5d3e9b91c8f1edca341