Les missions du poste
Vous intégrerez le Groupe Calcul Intensif et Infrastructures Informatiques (GC3I), dont les activités couvrent l'administration des systèmes, le développement logiciel, le calcul scientifique haute performance (HPC) ainsi que le développement de méthodes d'intelligence artificielle appliquées à la science.
Au sein de cet environnement, vous contribuerez au développement et à l'évolution d'un outil interne de gestion des données expérimentales, au coeur des activités scientifiques de l'Institut.
Cet outil vise à faciliter la collaboration entre physiciens et ingénieurs en intelligence artificielle en automatisant la création de jeux de données exploitables pour des workflows IA (data marts).
Vos missions principales seront les suivantes :
- Développer des mécanismes d'ingestion automatisée des données à partir de fichiers de configuration ;
- Concevoir et implémenter des méthodes génériques de nettoyage et de préparation des données ;
- Mettre en place des outils de visualisation adaptés aux besoins des utilisateurs ;
- Développer un noyau de sérialisation vers des formats compatibles avec les workflows IA ;
- Mettre en oeuvre des solutions d'annotation et d'enrichissement en métadonnées ;
- Participer à l'amélioration continue de l'outil en intégrant les retours utilisateurs et les contraintes techniques.
Dans le cadre de cette alternance, vous contribuerez activement à la version 2 de cet outil stratégique, avec pour objectif de livrer une solution robuste, performante et adaptée aux besoins métiers.
Vous serez amené(e) à collaborer étroitement avec des ingénieurs IA, des développeurs et des chercheurs, sur des problématiques concrètes à l'interface entre science des données et recherche en fusion par confinement magnétique.
Une ouverture est également prévue sur l'évaluation de l'apport des technologies d'IA, notamment les modèles de type LLM, pour améliorer certaines fonctionnalités clés (extraction, annotation, nettoyage des données).
Cette alternance constitue une opportunité unique de travailler sur des cas d'usage concrets de data engineering appliqué à la recherche scientifique (AI for Science).
Le profil recherché
Vous êtes en dernière année d'école d'ingénieur ou en Master 2, avec une spécialisation en data science, data engineering ou intelligence artificielle.
Vous disposez des compétences suivantes :
- Maîtrise du langage Python et de ses bibliothèques scientifiques (NumPy, SciPy, Pandas, Plotly...) ;
- Bonnes connaissances en nettoyage, transformation et préparation des données ;
Pratique des outils de versionnement (Git) et idéalement des environnements d'intégration continue ; - Intérêt pour les architectures de données et les problématiques d'interopérabilité.
Les avantages
- Télétravail jusqu’à 3 jours par semaine
- 52 jours de congés/RTT
- Possibilité d’aménagement du temps de travail
- Formation personnalisée
- Restauration d’entreprise
- Offre de transport interne et prise en charge Navigo and co,
- Mutuelle d’entreprise avantageuse
- CE (aides vacances, loisirs, frais de garde, scolarité des enfants etc
Les étapes de recrutement
Les étapes de recrutement peuvent varier selon l'offre à laquelle vous postulez.
-
Dépôt de CV via notre site carrière
-
Préqualification téléphonique
-
Entretiens et évaluation avec manager et RH
-
Négociation salariale et contrat de travail
-
Embauche et intégration
-
CEA en images
Publiée le 24/04/2026 - Réf : 2026-40249