Aller au contenu principal

Thèse Analyse Socio-Linguistique Computationnelle des Discours Portant sur l'Intelligence Artificielle H/F

Institut Polytechnique de Paris Télécom Paris

  • Paris - 75
  • CDD
  • Bac +5
  • Service public d'état
Lire dans l'app

Les missions du poste

Ces dernières années ont vu une multiplication d'initiatives visant à définir ce qu'impliquerait ou devrait impliquer une intelligence artificielle «éthique». Ces documents émanent du monde universitaire, des entreprises du secteur de l'IA, des organisations à but non lucratif, des institutions de régulation et de la société civile. Leur contenu est très variable, allant de brèves prises de position vagues à des transcriptions de débats démocratiques ou d'études d'impact. De ce fait, elles constituent un marqueur du monde social de l'intelligence artificielle, esquissant les principes des différents acteurs, le consensus et le désaccord sur les objectifs importants, etc. [Gornet et al., 2024].

L'objectif de cette thèse est de développer des méthodes d'analyse sociolinguistique d'objets sociotechniques tels que ces chartes, mais pas seulement. Nous nous situons entre les méthodes fréquentistes, comme la méthode Alceste, et les grands modèles de langage, comme Active Tigger. Bien que les deux soient utilisés en sociologie avec des résultats intéressants, nous soutenons que les premières manquent d'indices contextuels et que les seconds manquent de reproductibilité et d'interprétabilité, ce qui entrave l'élaboration de théories sociologiques.

La linguistique informatique basée sur les graphes et les méthodes de traitement automatique du langage naturel pourraient enrichir significativement l'état de l'art en sciences sociales computationnelles. Parmi ces méthodes, les Abstract Meaning representation (AMR, [Banarescu et al., 2013]) et sa généralisation, la Représentation Uniforme du Sens (UMR, [Van Gysel et al., 2021]), sont des modèles permettant d'encoder le contexte et la structure d'un texte sous forme de graphes.

Elles vont au-delà des représentations de type « bag of words » ou segments de texte, en intégrant des informations sémantiques et pragmatiques. Elles permettent ainsi une meilleure compréhension du corpus sans avoir recours à des entretiens qualitatifs (coûteux en termes d'annotation humaine, et donc de temps et d'argent). Modulaires, elles s'adaptent à la grande variabilité des données réelles, ce qui les rend intéressantes pour le développement de nouvelles méthodes d'analyse de données sociologiques.

Ce programme de doctorat est résolument interdisciplinaire. L'équipe d'encadrement, composée d'experts en linguistique informatique, traitement automatique du langage naturel, sciences sociales computationnelles et modélisation de graphes, en témoigne. Nous avons constitué un corpus de chartes et de manifestes sur l'éthique de l'IA, rédigés par différents acteurs du paysage actuel de l'IA. Nous menons des recherches sur ce corpus selon des perspectives sociologiques et linguistiques:

- Quels sont les groupes de personnes qui discutent d'IA et comment construisent-ils le sens?
- Quel type de vocabulaire ou de constructions sémantiques les auteurs utilisent-ils pour parler d'IA?
- Comment caractériser les différences d'usage linguistique entre les différents groupes d'auteurs qui écrivent sur l'IA, comment les mesurer et les décrire?

Nous souhaitons développer des approches de traitement automatique du langage naturel (TALN) basées sur les graphes et la sociologie computationnelle, en exploitant les méthodes modernes de TALN pour explorer nos données.

L'intelligence artificielle (IA) est devenue ces dernières années un sujet central de débat public et de réglementation. Dans un contexte européen de régulation empirique [Mair et al., 2019], qui privilégie l'autorégulation et la corégulation, une place prépondérante est accordée aux concepts présentés comme techniques (car issus de l'expertise de terrain), scientifiques (car intégrant l'expertise académique) ou quantifiés (car permettant une comparaison et une évaluation quantitatives). Ces concepts sont présentés comme capables de résoudre les controverses sociotechniques liées à l'IA: comment et où l'IA doit-elle être déployée, et avec quelles garanties?

Ces dernières années ont vu une multiplication d'initiatives visant à définir ce qu'impliquerait ou devrait impliquer une intelligence artificielle «éthique». Ces documents émanent du monde universitaire, des entreprises du secteur de l'IA, des organisations à but non lucratif, des institutions de régulation et de la société civile. Leur contenu est très variable, allant de brèves prises de position vagues à des transcriptions de débats démocratiques ou d'études d'impact. De ce fait, elles constituent un marqueur du monde social de l'intelligence artificielle, esquissant les principes des différents acteurs, le consensus et le désaccord sur les objectifs importants, etc. [Gornet et al., 2024].

L'objectif de cette thèse est de développer des méthodes d'analyse sociolinguistique d'objets sociotechniques tels que ces chartes, mais pas seulement. Nous nous situons entre les méthodes fréquentistes, comme la méthode Alceste, et les grands modèles de langage, comme Active Tigger. Bien que les deux soient utilisés en sociologie avec des résultats intéressants, nous soutenons que les premières manquent d'indices contextuels et que les seconds manquent de reproductibilité et d'interprétabilité, ce qui entrave l'élaboration de théories sociologiques.

La linguistique informatique basée sur les graphes et les méthodes de traitement automatique du langage naturel pourraient enrichir significativement l'état de l'art en sciences sociales computationnelles. Parmi ces méthodes, les Abstract Meaning representation (AMR, [Banarescu et al., 2013]) et sa généralisation, la Représentation Uniforme du Sens (UMR, [Van Gysel et al., 2021]), sont des modèles permettant d'encoder le contexte et la structure d'un texte sous forme de graphes.

Elles vont au-delà des représentations de type « bag of words » ou segments de texte, en intégrant des informations sémantiques et pragmatiques. Elles permettent ainsi une meilleure compréhension du corpus sans avoir recours à des entretiens qualitatifs (coûteux en termes d'annotation humaine, et donc de temps et d'argent). Modulaires, elles s'adaptent à la grande variabilité des données réelles, ce qui les rend intéressantes pour le développement de nouvelles méthodes d'analyse de données sociologiques.

Ce programme de doctorat est résolument interdisciplinaire. L'équipe d'encadrement, composée d'experts en linguistique informatique, traitement automatique du langage naturel, sciences sociales computationnelles et modélisation de graphes, en témoigne. Nous avons constitué un corpus de chartes et de manifestes sur l'éthique de l'IA, rédigés par différents acteurs du paysage actuel de l'IA. Nous menons des recherches sur ce corpus selon des perspectives sociologiques et linguistiques:

- Quels sont les groupes de personnes qui discutent d'IA et comment construisent-ils le sens?
- Quel type de vocabulaire ou de constructions sémantiques les auteurs utilisent-ils pour parler d'IA?
- Comment caractériser les différences d'usage linguistique entre les différents groupes d'auteurs qui écrivent sur l'IA, comment les mesurer et les décrire?

Nous souhaitons développer des approches de traitement automatique du langage naturel (TALN) basées sur les graphes et la sociologie computationnelle, en exploitant les méthodes modernes de TALN pour explorer nos données.

Le profil recherché

Les candidats doivent être titulaires d'un Master 2 en traitement du langage naturel et
en sciences sociales, ou être en cours d'obtention de ce diplôme. Nous recherchons des candidats maîtrisant les deux domaines, mais les candidatures de personnes possédant des compétences dans l'un de ces domaines et souhaitant se former à l'autre seront également prises en considération. Nous recherchons des candidats disposant de solides compétences (et, idéalement, d'une expérience) en traitement du langage naturel et en sciences sociales computationnelles, avec un accent particulier sur l'évaluation en sciences sociales. La maîtrise de l'anglais est indispensable.

Bienvenue chez Institut Polytechnique de Paris Télécom Paris

Établissement : Institut Polytechnique de Paris Télécom Paris
École doctorale : Ecole Doctorale de l'Institut Polytechnique de Paris
Laboratoire de recherche : Laboratoire de Traitement et Communication de l'Information
Direction de la thèse : Tiphaine VIARD ORCID 0000000259695439
Début de la thèse : 2026-10-01
Date limite de candidature : 2026-04-15T23:59:59

L'intelligence artificielle (IA) est devenue ces dernières années un sujet central de débat public et de réglementation. Dans un contexte européen de régulation empirique [Mair et al., 2019], qui privilégie l'autorégulation et la corégulation, une place prépondérante est accordée aux concepts présentés comme techniques (car issus de l'expertise de terrain), scientifiques (car intégrant l'expertise académique) ou quantifiés (car permettant une comparaison et une évaluation quantitatives). Ces concepts sont présentés comme capables de résoudre les controverses sociotechniques liées à l'IA: comment et où l'IA doit-elle être déployée, et avec quelles garanties?

Publiée le 24/03/2026 - Réf : 207b20107023b8901cb0e24a2517bcac

Thèse Analyse Socio-Linguistique Computationnelle des Discours Portant sur l'Intelligence Artificielle H/F

Institut Polytechnique de Paris Télécom Paris
  • Paris - 75
  • CDD
Postuler sur le site du partenaire Publiée le 24/03/2026 - Réf : 207b20107023b8901cb0e24a2517bcac

Finalisez votre candidature

sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Spie Operations recrutement
Voir l’offre
il y a 29 jours
MP Data recrutement
Voir l’offre
il y a 23 jours
Europcar France recrutement
Voir l’offre
il y a 23 jours
Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact