Aller au contenu principal
INRIA recrutement

Création de Dataset et Entrainement de Modèles de Traduction Entre Bibliothèques de Preuve Formelle H/F INRIA

Rennes - 35
CDI
Résumé de l'offre
  • 🏠 Télétravail partiel
  • Bac +3, Bac +4
  • Bac +5
  • Service public des collectivités territoriales

Les missions du poste

Création de dataset et entrainement de modèles de traduction entre bibliothèques de preuve formelle

Niveau de diplôme exigé : Bac +5 ou équivalent

Fonction : Ingénieur scientifique contractuel

A propos du centre ou de la direction fonctionnelle

Le centre Inria de l'Université de Rennes est un des neuf centres d'Inria et compte plus d'une trentaine d'équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au coeur d'un riche écosystème de R&D et d'innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité, acteurs de la recherche et de l'enseignement supérieur, laboratoires d'excellence, institut de recherche technologique.

Contexte et atouts du poste

et sont logiciels, appelés prouveurs interactifs, conçus pour écrire et valider des preuves de propriétés mathématiques grâce à une interaction entre utilisateurices et machine. Par exemple, ils sont utilisés dans le monde académique ainsi que dans l'industrie pour prouver la correction de programmes critiques et sophistiqués dans des domaines variés (cybersécurité, compilation, architecture, etc.). L'une des forces de ce type de méthodes formelles est son expressivité, qui permet en fait de formaliser et de vérifier des théories mathématiques arbitrairement sophistiquées. De fait, ces prouveurs interactifs sont aussi utilisés par des chercheurs en mathématiques aussi bien que par des chercheurs en méthodes formelles.

Un des grands défi de ce domaine est de démocratiser la production des bibliothèques de code de ces prouveurs, et de leur concevoir un environnement de développement moderne et productif. Le contexte général de ce poste est d'explorer comment les techniques de génération de code basées sur des outils d'IA peuvent se transposer aux prouveurs interactifs.

Dans le cadre du projet européen ERC FRESCO, et en collaboration avec les chercheurs du défi Inria LLM4Code, la mission de ce poste est plus particulièrement d'explorer la traduction automatique d'énoncés de preuves entre deux de ces systèmes (en particulier de Lean vers Coq/Rocq) à l'aide de Large Language Models (LLM). Nous nous concentrerons plus particulièrement sur deux grandes bibliothèques : pour Lean, et Mathematical Components (ou ) pour Coq. Ces deux bibliothèques partagent un socle théorique commun et sont guidées par des principes similaires en termes de structure et de pratiques. L'objectif sera de traduire les énoncés mathématiques présents dans mathlib, mais absents de mathcomp, en veillant à maintenir la précision des notations mathématiques lors de la traduction. La traduction des scripts de preuve pourra être abordée dans une phase ultérieure.

Mission confiée

Bien que des datasets existent en Lean et en Coq/Rocq, il n'existe pas de corpus parallèle pour la traduction entre ces deux systèmes. La personne recrutée aura pour missions :
- De créer un dataset parallèle pour permettre le fine-tuning des LLM si nécessaire.
- D'entraîner un LLM pour effectuer la traduction automatique d'énoncés de preuve de Lean vers Coq.
- D'évaluer les performances d'un modèle de traduction Lean -> Coq/Rocq sur des énoncés de preuves mathématiques.

L'ingénieur sera encadré par une chercheuse spécialiste des prouveurs interactifs (Coq, Lean) ainsi que par un ingénieur en machine learning. Les expérimentations seront menées en collaborations avec une équipe élargie de chercheurs Inria travaillant sur l'intégration d'outils de machine learning dans les prouveurs interactifs.

Principales activités
- Effectuer une recherche bibliographique sur l'état de l'art de la traduction automatique pour les langages disposant de peu de données.
- Construire un dataset parallèle à partir des énoncés disponibles dans mathlib et mathcomp et d'expériences existantes entre des énoncés disponibles dans des prouveurs interactifs et des textes mathématiques en langue naturelle. Le point de départ pourra être les datasets minF2F, putnamBench et proofnet.
- Fine-tuning et évaluation d'un modèle LLM pour la traduction d'énoncés mathématiques entre Lean et Coq.
- Communiquer régulièrement sur les résultats expérimentaux obtenus avec les chercheurs et ingénieurs support impliqués dans ces collaborations.

Compétences
- Langages de programmation : Python
- Expérience avec des modèles et librairies de deep learning.
- Compétence en entraînement, RL, orchestration
- Fonctionnement GPU
- Langue : Candidats maîtrisant l'anglais à un niveau B1 minimum avec une bonne compréhension du français (ou inversement).
- Travail en équipe en distanciel
- Une expérience avec un outil de preuve formelle (Coq, Lean,) serait un atout mais n'est pas obligatoire.

Avantages
- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés : 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
- Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
- Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
- Prestations sociales, culturelles et sportives (Association de gestion des oeuvres sociales d'Inria)
- Accès à la formation professionnelle

Rémunération

Selon expériences

Bienvenue chez INRIA

A propos d'Inria

Inria est l'institut national de recherche dédié aux sciences et technologies du numérique. Il emploie 2600 personnes. Ses 215 équipes-projets agiles, en général communes avec des partenaires académiques, impliquent plus de 3900 scientifiques pour relever les défis du numérique, souvent à l'interface d'autres disciplines. L'institut fait appel à de nombreux talents dans plus d'une quarantaine de métiers différents. 900 personnels d'appui à la recherche et à l'innovation contribuent à faire émerger et grandir des projets scientifiques ou entrepreneuriaux qui impactent le monde. Inria travaille avec de nombreuses entreprises et a accompagné la création de plus de 200 start-up. L'institut s'eorce ainsi de répondre aux enjeux de la transformation numérique de la science, de la société et de l'économie.

Création de Dataset et Entrainement de Modèles de Traduction Entre Bibliothèques de Preuve Formelle H/F
  • Rennes - 35
  • CDI
Publiée le 02/05/2025 - Réf : 5972fbe1f0682aba4aed80301def50e6

Finalisez votre candidature

sur le site du recruteur

Créez votre compte pour postuler

sur le site du recruteur !

Voir plus d'offres
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Application Android (nouvelle fenêtre) Application ios (nouvelle fenêtre)
Informations légales CGU Politique de confidentialité Gérer les traceurs Aide et contact
Nous suivre sur :