- Jobs
- Entreprises
-
Accès recruteur
-
Emploi
- Formation
-
Mon compte
-
Stage en Apprentissage Automatique et Web Sémantique pour la Découverte de Jeux de Données H/F INRIA
- Nice - 06
- Stage
- Télétravail partiel
- Service public des collectivités territoriales
Détail du poste
Stage en apprentissage automatique et web sémantique pour la découverte de jeux de données
Type de contrat : Stage
Niveau de diplôme exigé : Bac +4 ou équivalent
Fonction : Stagiaire de la recherche
A propos du centre ou de la direction fonctionnelle
L'Inria est l'Institut national de recherche en sciences du numérique, dont le centre Inria d'Université Côte d'Azur fait partie. Avec une forte expertise en informatique et mathématiques appliquées, les projets de recherche du centre Inria d'Université Côte d'Azur touchent toutes les dimensions des sciences et technologies du numérique, et génèrent de l'innovation. Implanté principalement à Sophia Antipolis, mais également à Nice ou Montpellier, il regroupe 47 équipes de recherche et neuf services d'appui. Il est présent dans les domaines de l'intelligence artificielle, la science des données, la sécurité des systèmes informatiques, la robotique, l'ingénierie de réseaux, la prévention des risques naturels, la transition écologique, la biologie numérique, les neurosciences computationnelles, les données de santé... Le Centre Inria d'Université Côte d'Azur est un acteur majeur en termes d'excellence scientifique par les résultats obtenus et les collaborations tant au niveau européen qu'international.
Contexte et atouts du poste
Une multitude de jeux de données en libre accès - qu'ils soient textuels, audio, vidéo ou tabulaires - est aujourd'hui disponible pour un large éventail de tâches en apprentissage automatique, et leur nombre ne cesse de croître à un rythme soutenu. Si cette abondance représente une véritable opportunité, elle soulève également des difficultés croissantes pour les praticiens - qu'ils soient issus du monde académique ou industriel - qui peinent à identifier les ressources les plus adaptées à leurs besoins, faute d'outils de navigation suffisamment performants.
Cette complexité résulte à la fois de la diversité des formats et contenus disponibles, et du manque de dispositifs capables d'orienter efficacement les utilisateurs dans un écosystème en constante expansion. La situation est d'autant plus critique que les systèmes d'intelligence artificielle (IA), en plein essor, s'appuient largement sur ces jeux de données pour leur entraînement et leur évaluation.
Actuellement, deux principaux obstacles freinent l'accès à l'information pertinente :
- D'une part, les jeux de données sont souvent décrits par des métadonnées incomplètes, hétérogènes ou mal normalisées, rendant leur contenu difficile à évaluer.
- D'autre part, les moteurs de recherche disponibles reposent principalement sur des requêtes par mots-clés, ce qui suppose une connaissance préalable du domaine et produit des résultats souvent peu contextualisés.
Dans le cadre du projet DataLens, des résultats préliminaires ont été obtenus, notamment en matière de normalisation, de structuration et d'exploration des jeux de données. Un premier aboutissement concerne le développement d'un prototype dédié à la découverte de jeux de données, combinant une approche de recherche à facettes avec des techniques de visualisation interactive. Un second résultat porte sur l'harmonisation et la structuration des données issues du dépôt HuggingFace, à travers l'alignement des métadonnées avec des vocabulaires standards. Cela a conduit à la conception et à la mise en place d'un graphe de connaissances (CG), visant à faciliter l'intégration interopérable des métadonnées provenant de sources hétérogènes.
Mission confiée
Le stage a pour objectif d'enrichir et d'étendre un graphe de connaissances (CG) existant, en y intégrant des informations relatives aux jeux de données et aux modèles d'apprentissage automatique associés (issus notamment de HuggingFace, Kaggle, ou PapersWithCode).
L'enjeu est de renforcer l'interopérabilité, la structuration et la découvrabilité des ressources, en combinant des approches de web sémantique, de normalisation de métadonnées, et d'apprentissage automatique.
Principales activités
- Étudier la structure actuelle du graphe de connaissances développé dans le cadre du projet DataLens.
- Intégrer les informations relatives aux modèles d'IA associés aux jeux de données du catalogue HuggingFace.
- Définir et implémenter les relations pertinentes entre modèles et jeux de données (ex. isTrainedOn, hasEvaluationDataset, usesArchitecture).
- Concevoir une taxonomie des tâches d'apprentissage automatique (classification, génération, traduction, etc.) selon un schéma SKOS.
- Intégrer cette taxonomie au graphe de connaissances pour améliorer la recherche par type de tâche.
- Mettre en oeuvre des techniques de normalisation des étiquettes via des méthodes d'entity linking (Wikidata, DBpedia).
- Développer un pipeline automatique de correspondance entre champs et sources de données hétérogènes.
- Expérimenter des modèles d'apprentissage automatique (réseaux neuronaux, transformers) pour compléter les métadonnées manquantes.
- Concevoir des tests d'évaluation de la complétion (précision, rappel, F1-score).
- Mettre en place un pipeline reproductible d'enrichissement et de structuration des métadonnées.
- Évaluer la généricité du graphe en intégrant des données issues d'autres plateformes (Kaggle, PapersWithCode).
Compétences
Compétences techniques et niveau requis :Les technologies du Web sémantique (RDF, SPARQL, SKOS) et les méthodes d'apprentissage supervisé ou non supervisé constitueront un atout majeur. Des compétences en programmation (Python) et en analyse de données seront également nécessaires.
Langues : français / anglais
Avantages
- Restauration subventionnée
- Transports publics remboursés partiellement
- Congés: 7 semaines de congés annuels + 10 jours de RTT (base temps plein) + possibilité d'autorisations d'absence exceptionnelle (ex : enfants malades, déménagement)
- Possibilité de télétravail (après 6 mois d'ancienneté) et aménagement du temps de travail
- Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)
- Prestations sociales, culturelles et sportives (Association de gestion des oeuvres sociales d'Inria)
- Accès à la formation professionnelle
- Participation mutuelle (sous conditions)
Rémunération
Gratification selon temps de présence.
Pas de salaire renseigné
Publiée le 17/10/2025 - Réf : 1439f8399310aed790d6c45a1a81d7dd
Créez une alerte
Pour être informé rapidement des nouvelles offres, merci de préciser les critères :
Stage en Apprentissage Automatique et Web Sémantique pour la Découverte de Jeux de Données H/F
- Nice - 06
- Stage
Finalisez votre candidature
sur le site du recruteur
Créez votre compte pour postuler
sur le site du recruteur !
sur le site du recruteur
sur le site du recruteur !
Recherches similaires
- Job Monaco
- Job Cannes
- Job Antibes
- Job Menton
- Job Grasse
- Job Cagnes-sur-Mer
- Job Carros
- Job Saint-Laurent-du-Var
- Job Vence
- Job Villeneuve-Loubet
- Entreprises Nice
- Offre de stage Alpes-Maritimes
- Offre de stage Nice
- Job Fonction publique
- Job Collectivités
- Job Fonction publique territoriale
- Job Numérique
- Job Centre
- Job Fonction publique Nice
- Job Collectivités Nice
- Job Fonction publique territoriale Nice
- Job Anglais Nice
- Job Langues Nice
- INRIA Nice
- Stage INRIA
{{title}}
{{message}}
{{linkLabel}}