Les missions du poste
CONTEXTE & OBJECTIF DU POSTE
Le client recherche un ingénieur Cloud/DevOps orienté production pour assurer la stabilité, la fiabilité et la performance des systèmes en production sur un environnement cloud hybride AWS/GCP. Le rôle est à dominante RUN opérationnel avec une forte dimension automatisation et industrialisation (IaC, CI/CD, scripting).
La stack : AWS + GCP, Kafka, Elasticsearch, Couchbase, Mesos - environnement legacy en évolution vers du cloud. Le profil doit être à l'aise dans la complexité et l'hétérogénéité.
Trois enjeux concrets :
- Garantir la disponibilité production au quotidien : monitoring proactif, gestion des incidents de bout en bout (détection, RCA, actions correctives), astreinte via PagerDuty
- Automatiser et industrialiser les opérations : réduction de la dette manuelle via Terraform, Ansible, Python et Bash
- Collaborer avec les équipes de développement pour améliorer la déployabilité et l'exploitabilité des applications
MISSIONS PRINCIPALES
Supervision & Disponibilité Production
- Assurer le monitoring 24/7 des systèmes de production via Grafana, Prometheus, Datadog et Stackdriver - détection proactive des anomalies avant impact utilisateur
- Créer et maintenir les dashboards et les alertes, corréler les événements pour le diagnostic d'incidents
- Participer à l'astreinte on-call (PagerDuty) sur les systèmes critiques
Gestion des Incidents
- Prendre en charge les incidents de production, mener le troubleshooting et produire les RCA (Root Cause Analysis)
- Définir et mettre en oeuvre les actions correctives et préventives pour éviter la récurrence
- Communiquer de façon claire avec les équipes et le management en situation de crise
Automatisation & Infrastructure as Code
- Écrire et maintenir les configurations Terraform en production (modules, state management, workspaces)
- Automatiser les opérations répétitives via Python et Bash - déploiements, inventaire, vérification, reporting
- Gérer la configuration via Ansible et maintenir les pipelines GitLab CI
Exploitation des Environnements Conteneurisés & Plateformes
- Opérer Kubernetes en production : déploiements, services, scaling HPA, troubleshooting pods/nodes, gestion des namespaces et RBAC
- Opérer Kafka en production : monitoring du lag consumer, gestion des topics et partitions, diagnostic des incidents de streaming
- Assurer le support opérationnel sur les bases de données : PostgreSQL, Elasticsearch, Couchbase (performances, sauvegardes, restaurations)
Réseau & Sécurité Cloud
- Gérer les VPN, NAT, routage IP, proxy et load balancing en environnement cloud AWS et GCP
- Appliquer les bonnes pratiques de sécurité et de gestion des accès (IAM, VPC)
Le profil recherché
PROFIL RECHERCHÉ
- 5 à 8 ans en ingénierie cloud/DevOps/ops, dont au moins 3 ans sur des environnements de production cloud (AWS ou GCP) avec Kubernetes
- Expérience d'astreinte ou on-call sur des systèmes critiques : signal fort qui forme des réflexes de diagnostic et de gestion de crise que les profils purement "projet" n'ont pas
- Exposition à Kafka en production : critère discriminant
- Capacité à opérer sur AWS ET GCP - le multi-cloud est explicite, un profil mono-provider devra démontrer une capacité de transfert rapide
- Anglais courant : documentation, runbooks, communication avec des équipes internationales
COMPÉTENCES REQUISES
- Cloud AWS + GCP (+++) : Exploitation opérationnelle des deux providers en production - EC2/GCE, S3/GCS, RDS, IAM, VPC, load balancers, App Engine - pratique réelle requise sur les deux
- Kubernetes (++) : Exploitation en production : déploiements, services, ingress, HPA, troubleshooting pods/nodes, gestion des namespaces et RBAC, monitoring
- Terraform (++) : Écriture et maintenance de configurations IaC en production - modules, state management, workspaces
- Monitoring (++) : Grafana + Prometheus + Datadog + Stackdriver : création de dashboards, définition d'alertes, corrélation d'événements pour le diagnostic d'incidents
- Scripting Python + Bash (++) : Automatisation opérationnelle, scripts de déploiement, outils d'inventaire et de vérification - niveau confirmé
- Kafka, Bases de données & Réseau : Kafka : monitoring du lag consumer, gestion des topics, diagnostic des incidents de streaming ; PostgreSQL, Elasticsearch, Couchbase : support opérationnel en production ; VPN, NAT, routage IP, proxy, load balancing en environnement cloud
- CI/CD & Configuration : GitLab CI : maintenance et amélioration de pipelines ; Ansible : configuration management et automatisation de déploiements
L'entreprise
Créé en 2008, le Groupe Ascalium est un acteur global du recrutement spécialisé dans le placement de freelances (#WeAreFreelance) et le portage salarial (#WeArePortage).
En 16 ans, plus de 5 000 consultants ont fait confiance au groupe et près de 100 clients ont été satisfaits.
Ascalium accompagne également ses clients dans leur recherche de compétences en CDI.
Publiée le 05/05/2026 - Réf : 4053300/28721250 OCEICDRAGKT/92N