Les compétences pour ce job
- Anglais
Détail du poste
Au sein de votre équipe #OneTeam
- Intégrer l'équipe Baremetal Operations en charge du maintien en conditions opérationnelles des infrastructures et des services du périmètre par une approche proactive et prédictive, en assurant un haut niveau de disponibilité et une restauration automatisée ou rapide des services en cas d'incident.
- Construire un service hautement qualitatif en participant au développement, à l'automatisation et au déploiement de nouvelles solutions de supervision intelligente (observabilité, corrélation automatique des logs). Ces projets viseront la création et l'optimisation des outils existants en intégrant des technologies d'IA générative et prédictive pour maximiser l'efficacité opérationnelle et la qualité de service.
Vos principales responsabilités
- Analyser et résoudre les incidents en s'appuyant sur des outils d'AIOps (analyse avancée et corrélation de logs multi-sources), identifier les causes racines et automatiser leur traitement.
- Concevoir et implémenter des mécanismes d'auto-remédiation pour réduire le MTTR.
- Mettre en place des indicateurs et des alertes basés sur l'analyse prédictive des anomalies pour intervenir avant l'impact utilisateur.
- Traiter les demandes transmises par les équipes support client ou d'autres équipes opérationnelles.
- Créer et assurer le suivi des PostMortem en cas d'incident majeur, en exploitant l'IA pour documenter et accélérer l'analyse post-incident.
- Assurer la continuité de service 24h/24 (avec participation à des périodes d'astreintes, après une montée en compétence suffisante).
- Déployer et maintenir le parc interne BareMetal et les infrastructures cloud/hybrides.
- Développer des outils, des patchs et des fonctionnalités pour gérer les infrastructures, en maximisant l'usage d'assistants de code.
Votre futur impact
Dans 6 mois
- Vous aurez pris vos marques au sein de l'équipe Baremetal Operations et appréhendé notre infrastructure ainsi que nos services. Vous comprendrez les défis actuels liés à la haute disponibilité et commencerez à manipuler nos outils d'AIOps.
- Vous aurez participé à l'analyse et à la résolution des premiers incidents, en contribuant à l'identification des causes racines et en vous familiarisant avec nos mécanismes d'auto-remédiation.
- Vous aurez établi des relations avec les équipes support et les autres entités opérationnelles pour fluidifier le traitement des demandes et la gestion des alertes prédictives.
- Vous aurez exploré nos environnements de développement et de scripting (Python, Go, Bash) afin de proposer vos premières optimisations de code assistées par IA.
Et dans 1 an
- Vous aurez joué un rôle clé dans le déploiement de nouvelles solutions de supervision intelligente et l'intégration de technologies d'IA générative/prédictive au sein de nos outils d'exploitation.
- Vous aurez partagé votre expertise en pratiques AIOps et Prompt Engineering avec l'équipe, en automatisant une part significative des processus de traitement des anomalies et des PostMortem.
- Vous aurez interagi avec l'ensemble de l'écosystème technique d'OVHcloud, en assurant des astreintes en toute autonomie et en maintenant le parc BareMetal au meilleur niveau de performance et de scalabilité.
C
Le profil recherché
- Vous possédez de solides connaissances en système et réseau (Unix, Cisco/Arista), maîtrisez le scripting (Bash) et le développement dans au moins un langage parmi Python ou Go.
- Vous maîtrisez la culture et les pratiques AIOps (analyse prédictive, détection d'anomalies par ML, corrélation d'événements) ainsi que les techniques de Prompt Engineering avec l'utilisation d'assistants de code.
- Vous êtes à l'aise avec les bonnes pratiques CI/CD, les méthodes agiles, et faites preuve de réactivité, de rigueur ainsi que d'un fort sens du service client.
- Vous avez une bonne capacité de prise de recul, un sens analytique aiguisé et un esprit critique face aux suggestions des outils d'IA pour gérer les priorités face à des situations complexes.
- Vous disposez d'un anglais de bon niveau (écrit et oral), indispensable pour évoluer dans notre contexte international.
C'est un +
- Vous connaissez Kubernetes, Terraform et les outils/méthodes DevOps.
- Vous avez une expérience avec des plateformes d'observabilité intégrant des modules IA, une connaissance du référentiel ITIL v3/v4 ou une première expérience en maintenance d'infrastructures IT.
SRE Baremetal H/F/N
Les avantages
- Une politique de télétravail flexible
- Un plan d'actionnariat salarié
- Un programme de reconnaissance de l'ancienneté
- Des subventions vacances et sport
- Des équipes multi-culturelles
- Une plateforme de développement de compétences ouverte à tous
- Un engagement fort dans le développement durable
- Des plateformes d'accompagnement en ligne pour vous et votre famille
Les étapes de recrutement
Les étapes de recrutement peuvent varier selon l'offre à laquelle vous postulez.
-
Entretien téléphonique avec l'équipe recrutement
-
Entretien physique ou en visio avec un recruteur
-
Test technique si le poste l'exige
-
Entretien manager et rencontre avec l'équipe
-
Debriefing avec le recruteur et proposition d'embauche le cas échéant
-
OVHCloud en images
Publiée le 01/07/2026 - Réf : 74de308f8933abb2d525900049ddf07f