Aller au contenu principal

Stage - Data Scientist - Traitement de Logs H/F

  • Châtillon - 92
  • Stage
  • 6 mois
  • Bac +5
  • Industrie high-tech • Telecom
  • Exp. - 1 an
Lire dans l'app

Les missions du poste

Description de la mission et des activités

Au sein de l'équipe AI4Ops, nous développons des solutions de Machine Learning appliquée à l'observabilité des systèmes IT, avec pour objectif de détecter automatiquement des anomalies à partir des logs systèmes.

Les logs sont souvent non structurés, bruités et massifs, et nécessitent l'usage de techniques avancées de traitement automatique du langage (NLP) combinées à des méthodes de détection d'anomalies à base de méthodes non supervisée en machine learning (ML) ou deep learning (DL).

Une approche classique consiste d'abord à parser les logs (analyse syntaxique à base d'expressions régulières) pour rattacher chaque log à un template (modèle de message). On passe ainsi d'une information non structurée (logs bruts souvent très verbeux et variés) en séquences de templates ce qui permet aussi de réduire la dimensionnalité du problème. Ensuite interviennent des opérations de groupage de ces templates (fenêtre fixe, glissante etc) puis de transformation de la représentation (comptage simple, séquence, sémantique). Dans le cas le plus simple, le problème se ramène à la détection d'anomalies sur des séries temporelles multivariées.

Une autre approache, qui aurait l'avantage d'être plus robuste à la variabilité des données de logs (mot hors vocabulaires, etc) et pourrait se révéler plus performante, serait de calculer des embeddings sur les logs. Différentes approches sont envisageables. Une approche naïve (CountVectorizer ou TF-IDFVectorizer), en passant par la création d'embeddings avec des embeddings pré-entraînés (Word2Vec, Log2Vec), ou l'utilisation de framework comme LogBERT.
Le stage portera principalement sur le prétraitement des logs pour les rendre utilisables par les algorithmes ML/DL de détection d'anomalies. Il s'agit d'un cas d'usage concret sur des logs de production. Le stagiaire sera intégré dans une équipe de data scientists et sera en contact avec l'équipe cliente qui a la connaissance métier (signification des logs). Il aura à sa disposition des outils d'exploration comme ElasticSearch, Kibana, etc.

Objectifs du stage :
Réaliser un benchmark des algorithmes de templating des logs (DRAIN, SPELL, LogMine etc) et identifier le plus pertinent sur les logs du projet
Appliquer des méthodes NLP pour transformer les logs non structurés en représentations exploitables (TF-IDF, embeddings, clustering, etc.)
Travailler en collaboration avec les équipes clientes pour évaluer l'intérêt métier

Profil recherché externe/compétences

Vous préparez un Bac +5 en Data Science / Intelligence Artificielle et recherchez un stage de 6 mois à temps plein à partir d'avril 2026.
(Pour information, nous ne proposons pas de stage alterné.)

Solide maîtrise de Python et des bibliothèques de traitement des données.
Connaissances en NLP appliqué et/ou en modèles de détection d'anomalies.
Intérêt pour l'observabilité IT, les logs systèmes, les architectures cloud/devops.
Curiosité, autonomie, esprit de recherche, capacité à vulgariser.
__PRESENT
__PRESENT
__PRESENT

Au sein d'Orange Innovation, le département Data Intelligence Factory accueille toutes
les activités permettant d'extraire, de traiter et de valoriser des données dans des
environnements clouds natifs et d'en assurer la sécurité. Il porte en particulier les
activités de moteurs de traitement de données, d'observabilité, ainsi que des
environnements et enablers en data science et machine learning.

Au sein de ce département, l'équipe ADIS (Automated Data Intelligence at Scale)
développe de nouvelles méthodes d'analyse de données, et fournit les
environnements et outils de traitements et analyse de données en production. Elle
apporte un soutien aux équipes métiers pour l'analyse de leurs données, et
notamment sur l'usage des outils et le développement de cas d'usage dans un
environnement de production. Elle identifie, qualifie des solutions (internes ou
externes) selon les besoins.

CSE

Publiée le 08/01/2026 - Réf : 27898936 2025-48606

Stage - Data Scientist - Traitement de Logs H/F

  • Châtillon - 92
  • Stage
Publiée le 08/01/2026 - Réf : 27898936 2025-48606

Finalisez votre candidature

sur le site du recruteur

Créez votre compte pour postuler

sur le site du recruteur !

Ces offres pourraient aussi
vous intéresser

Monoprix - Siège recrutement
Voir l’offre
il y a 18 jours
Canal Plus recrutement
Canal Plus recrutement
Issy-les-Moulineaux - 92
Stage
Télétravail partiel
Voir l’offre
il y a 26 jours
Voir plus d'offres
Initialisation…
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Application Android (nouvelle fenêtre) Application ios (nouvelle fenêtre)
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact