Sre - Site Reliabiltiy Engineer - DevOps H/F
collectivite
- Paris - 75
- Freelance
- Télétravail partiel
- Bac +2
- Bac +3, Bac +4
- Bac +5
- Services aux Entreprises
- Exp. 6 ans min.
Les compétences pour ce job
- AWS
Détail du poste
Information importante
Type de contrat: Freelance
Taux journalier : Salaire selon profil
Localisation : Paris, France
Date de démarrage :
Urgent
Mode de travail : Télétravail, Hybride
Publié le : 3 juillet 2026
Le besoin
Contexte de la mission
Nous accompagnons une scale-up SaaS B2B en forte croissance, opérant une plateforme critique pour des clients entreprises dans plusieurs pays.
La plateforme repose principalement sur un environnement NestJS, MongoDB, GraphQL et Redis, organisé autour d'un monorepo. Elle traite des flux métier et financiers sensibles, avec des exigences élevées en matière de disponibilité, de performance, de traçabilité et d'intégrité des données.
L'entreprise engage actuellement plusieurs chantiers structurants : extraction progressive d'une couche API et de services depuis un monolithe, intégration de nouvelles équipes engineering, amélioration de la chaîne de delivery et montée en maturité sur la fiabilité opérationnelle.
À la suite d'incidents de production ayant mis en lumière certains angles morts techniques et organisationnels, l'objectif est de faire de la fiabilité une composante native de la façon dont les équipes conçoivent, livrent et opèrent le produit.
Le besoin porte sur un profil senior et très hands-on, capable de construire les fondations SRE / Platform Engineering : standards, outils, pratiques de delivery, observabilité, résilience et culture d'incident management.
Objectif de la mission
Structurer et déployer une approche durable de la fiabilité au sein de l'organisation engineering.
Le consultant interviendra à l'interface entre les applications, l'infrastructure cloud et les pratiques de delivery afin de :
améliorer la visibilité sur le comportement réel des services en production ;
réduire les risques d'incidents, de régression et de dégradation de performance ;
fiabiliser les déploiements et les évolutions de schéma ;
mettre en place une culture opérationnelle pragmatique autour des SLO, runbooks, astreintes et postmortems ;
accompagner les équipes de développement dans l'adoption de standards de résilience et d'exploitation.
Missions principales
Observabilité et performance applicative
Faire évoluer l'instrumentation applicative et les standards de monitoring dans Datadog.
Mettre en place des métriques, dashboards, alertes et traces permettant d'anticiper les incidents et de réduire le temps de diagnostic.
Suivre notamment les indicateurs liés à la mémoire Node.js et au runtime : consommation heap, tendances V8, risques d'OOM, event loop lag, temps d'exécution par handler, erreurs applicatives, saturation de workers et profondeur des dead-letter queues.
Renforcer l'usage de l'APM, des custom metrics, des monitors et des tests synthétiques.
Identifier les principaux parcours métier et techniques à surveiller de bout en bout.
Fiabilisation du delivery et des déploiements
Définir et mettre en oeuvre des standards de déploiement fiables et reproductibles.
Industrialiser les pratiques de déploiement sans interruption de service.
Concevoir et documenter des patterns de migrations de données et de schéma de type expand/contract.
Mettre en place ou renforcer les mécanismes de feature flags, canary releases et blue/green deployments.
Faire évoluer les pipelines GitHub Actions : stratégie de cache, builds ciblés dans le monorepo, optimisation des temps de CI, contrôles qualité et sécurité.
Intégrer les pratiques SAST, notamment Semgrep, dans les workflows de pull requests et contribuer à la création de règles adaptées aux risques spécifiques de la plateforme.
Résilience applicative et prévention des incidents
Identifier, qualifier et prioriser les fragilités techniques existantes dans les services et les flux asynchrones.
Concevoir des patterns réutilisables pour prévenir les incidents récurrents : circuit breakers, timeouts, retries maîtrisés, limites de profondeur, protections contre les cascades de reconnexion, idempotence et gestion des erreurs.
Renforcer la robustesse des mécanismes reposant sur Redis, les queues, les listeners et les traitements asynchrones.
Analyser les risques de dérive dans les conventions techniques, notamment autour des clés Redis, des flux d'événements et des dépendances inter-services.
Accompagner les équipes dans la correction des points faibles identifiés et dans l'adoption de garde-fous durables.
On-call, SLO et incident management
Structurer les pratiques d'astreinte et de gestion d'incident.
Définir des SLO et indicateurs de disponibilité sur les flux les plus critiques de la plateforme.
Mettre en place une logique d'error budgets pragmatique et adaptée au niveau de maturité de l'organisation.
Rédiger et maintenir les runbooks associés aux principaux scénarios d'incident.
Formaliser un processus de postmortem orienté amélioration continue, distinguant clairement symptômes, hypothèses, causes racines et actions correctrices.
Participer aux incidents critiques et aux analyses post-incident afin d'améliorer durablement les pratiques engineering.
Accompagnement des équipes
Diffuser les bonnes pratiques de fiabilité, d'observabilité et d'exploitation au sein des équipes de développement.
Challenger les choix techniques ayant un impact sur la disponibilité, les performances ou l'intégrité des données.
Contribuer à faire émerger une culture partagée de responsabilité opérationnelle, sans créer de lourdeur organisationnelle inutile.
Participer à la structuration progressive d'une fonction Platform / SRE au sein de l'entreprise.
Livrables attendus
Cartographie des principaux risques de fiabilité et priorisation des actions à mener.
Standards d'instrumentation Datadog et dashboards couvrant les services et flux critiques.
Alerting opérationnel sur les métriques clés : heap, OOM, event loop lag, erreurs, latence, saturation et queues.
Runbooks pour les principaux scénarios d'incident.
SLO et indicateurs de fiabilité pour les flux métier les plus sensibles.
Processus de postmortem et modèle de suivi des actions correctrices.
Standards documentés de déploiement sans interruption et de migration de schéma.
Évolution des pipelines CI/CD : builds ciblés, cache, contrôles de sécurité et qualité.
Patterns de résilience réutilisables par les équipes produit et engineering.
Plan de montée en maturité SRE / Platform Engineering à moyen terme.
Résultats attendus à court terme
À 30 jours
Prise en main complète de l'architecture, du monorepo, des pipelines de déploiement et de l'historique des incidents.
Identification des principaux scénarios susceptibles de provoquer un incident de production.
Mise en place ou amélioration de l'instrumentation Datadog sur la consommation mémoire, les OOM et l'event loop lag.
Livraison d'au moins un runbook opérationnel sur un incident critique ou récurrent.
Première priorisation des chantiers de fiabilité et de résilience.
À 60 jours
Mise en place de builds ciblés, de mécanismes de cache et de contrôles Semgrep dans la CI.
Définition de SLO sur les principaux flux métier critiques.
Adoption d'un premier pattern de migration sans interruption par au moins une équipe produit.
Structuration d'une rotation d'astreinte et de runbooks couvrant les incidents les plus fréquents.
Amélioration tangible de la capacité de détection, de diagnostic et de résolution des incidents.
Compétences requises
Indispensables
Minimum 6 ans d'expérience en SRE, Platform Engineering, DevOps ou fiabilité applicative au sein d'une entreprise produit, SaaS ou tech.
Expérience forte de Node.js en production : event loop, mémoire V8, heap, profiling, fuite mémoire, OOM, performance applicative et diagnostic d'incidents.
Très bonne maîtrise de MongoDB à l'échelle : stratégie d'indexation, performance des pipelines d'agrégation, comportement des replica sets, migrations en ligne et optimisation des requêtes.
Expérience concrète sur AWS, ECS et Fargate : task definitions, health checks, auto-scaling, ECR, déploiement de workloads conteneurisés et diagnostic de production.
Maîtrise avancée de Datadog : APM, custom metrics, dashboards, monitors, alerting, traces et tests synthétiques.
Expérience de conception et d'optimisation de pipelines CI/CD avec GitHub Actions.
Bonne compréhension des problématiques de monorepo : builds ciblés, cache, dépendances et optimisation des pipelines.
Solide expérience de gestion d'incidents, participation à des war rooms, rédaction de postmortems et mise en oeuvre d'actions correctrices durables.
Compétences appréciées
Expérience avec NestJS ou un framework Node.js fortement structuré autour de l'injection de dépendances.
Expérience GraphQL en production : détection des N+1, DataLoader, limitations de complexité, optimisation de requêtes et sécurité.
Bonne maîtrise de Redis : cluster, politiques d'éviction, Streams, pub/sub, conventions de clés et performance.
Expérience avec Bull ou des systèmes de queues / workers distribués.
Capacité à écrire ou faire évoluer des règles Semgrep spécifiques à l'organisation.
Expérience dans un environnement FinTech, paiement, transactionnel ou SaaS B2B critique.
Expérience de structuration d'une fonction SRE ou Platform Engineering dans une scale-up.
Sensibilité forte aux problématiques d'intégrité des données, de disponibilité et de SLA client.
Environnement technique
Application : NestJS, Node.js, MongoDB, GraphQL, Redis, Bull
Infrastructure : AWS, ECS, Fargate, ECR, S3, RDS
Observabilité : Datadog, CloudWatch
CI/CD : GitHub Actions, monorepo, services en cours d'extraction
Sécurité : Snyk, Semgrep
Déploiement : ECS Task Definitions, blue/green deployment en cours de structuration
Profil recherché
Nous recherchons un profil senior, autonome et structurant, capable de rester très proche du terrain.
La personne devra être à l'aise pour investiguer un problème complexe en production, lire et challenger du code Node.js, comprendre les interactions entre application, données, infrastructure et delivery, puis transformer les constats en standards simples et réellement adoptés par les équipes.
Ce n'est pas un rôle de management d'équipe à court terme. La priorité est de construire, livrer, transmettre et élever durablement le niveau de fiabilité de la plateforme.
Infos complémentaires
Publiée le 03/07/2026 - Réf : b188c933d995f129221a3a34fa10e6c7