Complétez votre profil pour recevoir des offres adaptées.

Mon espace

Mes CV vus

Mes candidatures

Mes alertes

Mon profil

Paramètres

Déconnexion

Missions d'intérim
Offres de stage
Offres en alternance
Créer mon alerte
Déposer mon CV
Salaire brut net

Téléchargez l'app et postulez dans les premiers !

Diffuser ma première offre Déjà client

Téléchargez l'app et postulez dans les premiers !

Se connecter S'inscrire Formation

Téléchargez l'app et postulez dans les premiers !

Trouver mon job s

Trouver mon entreprise s

Accès recruteur

Diffuser ma première offre

Déjà client

Emploi

Missions d'intérim

Offres de stage

Offres en alternance

Créer mon alerte

Déposer mon CV

Salaire brut net

Formation

Se connecter

S'inscrire

Trouver mon job s

Trouver mon entreprise s

Mon espace

Mes CV vus

Mes candidatures

Mes alertes

Mon profil

Paramètres

Déconnexion

Pas de salaire renseigné

Le recruteur n'a pas communiqué le salaire pour cette offre, ou n'a pas souhaité l'afficher.

Postuler sur le site du partenaire

Sre - Site Reliabiltiy Engineer - DevOps H/F
collectivite

Paris - 75
Freelance

Télétravail partiel
Bac +2
Bac +3, Bac +4
Bac +5
Services aux Entreprises
Exp. 6 ans min.

Lire dans l'app

Les compétences pour ce job

Détail du poste

Information importante

Type de contrat: Freelance

Taux journalier : Salaire selon profil

Localisation : Paris, France

Date de démarrage :

Urgent

Mode de travail : Télétravail, Hybride

Publié le : 3 juillet 2026

Le besoin

Contexte de la mission

Nous accompagnons une scale-up SaaS B2B en forte croissance, opérant une plateforme critique pour des clients entreprises dans plusieurs pays.

La plateforme repose principalement sur un environnement NestJS, MongoDB, GraphQL et Redis, organisé autour d'un monorepo. Elle traite des flux métier et financiers sensibles, avec des exigences élevées en matière de disponibilité, de performance, de traçabilité et d'intégrité des données.

L'entreprise engage actuellement plusieurs chantiers structurants : extraction progressive d'une couche API et de services depuis un monolithe, intégration de nouvelles équipes engineering, amélioration de la chaîne de delivery et montée en maturité sur la fiabilité opérationnelle.

À la suite d'incidents de production ayant mis en lumière certains angles morts techniques et organisationnels, l'objectif est de faire de la fiabilité une composante native de la façon dont les équipes conçoivent, livrent et opèrent le produit.

Le besoin porte sur un profil senior et très hands-on, capable de construire les fondations SRE / Platform Engineering : standards, outils, pratiques de delivery, observabilité, résilience et culture d'incident management.

Objectif de la mission

Structurer et déployer une approche durable de la fiabilité au sein de l'organisation engineering.

Le consultant interviendra à l'interface entre les applications, l'infrastructure cloud et les pratiques de delivery afin de :

améliorer la visibilité sur le comportement réel des services en production ;
réduire les risques d'incidents, de régression et de dégradation de performance ;
fiabiliser les déploiements et les évolutions de schéma ;
mettre en place une culture opérationnelle pragmatique autour des SLO, runbooks, astreintes et postmortems ;
accompagner les équipes de développement dans l'adoption de standards de résilience et d'exploitation.

Missions principales

Observabilité et performance applicative

Faire évoluer l'instrumentation applicative et les standards de monitoring dans Datadog.
Mettre en place des métriques, dashboards, alertes et traces permettant d'anticiper les incidents et de réduire le temps de diagnostic.
Suivre notamment les indicateurs liés à la mémoire Node.js et au runtime : consommation heap, tendances V8, risques d'OOM, event loop lag, temps d'exécution par handler, erreurs applicatives, saturation de workers et profondeur des dead-letter queues.
Renforcer l'usage de l'APM, des custom metrics, des monitors et des tests synthétiques.
Identifier les principaux parcours métier et techniques à surveiller de bout en bout.

Fiabilisation du delivery et des déploiements

Définir et mettre en oeuvre des standards de déploiement fiables et reproductibles.
Industrialiser les pratiques de déploiement sans interruption de service.
Concevoir et documenter des patterns de migrations de données et de schéma de type expand/contract.
Mettre en place ou renforcer les mécanismes de feature flags, canary releases et blue/green deployments.
Faire évoluer les pipelines GitHub Actions : stratégie de cache, builds ciblés dans le monorepo, optimisation des temps de CI, contrôles qualité et sécurité.
Intégrer les pratiques SAST, notamment Semgrep, dans les workflows de pull requests et contribuer à la création de règles adaptées aux risques spécifiques de la plateforme.

Résilience applicative et prévention des incidents

Identifier, qualifier et prioriser les fragilités techniques existantes dans les services et les flux asynchrones.
Concevoir des patterns réutilisables pour prévenir les incidents récurrents : circuit breakers, timeouts, retries maîtrisés, limites de profondeur, protections contre les cascades de reconnexion, idempotence et gestion des erreurs.
Renforcer la robustesse des mécanismes reposant sur Redis, les queues, les listeners et les traitements asynchrones.
Analyser les risques de dérive dans les conventions techniques, notamment autour des clés Redis, des flux d'événements et des dépendances inter-services.
Accompagner les équipes dans la correction des points faibles identifiés et dans l'adoption de garde-fous durables.

On-call, SLO et incident management

Structurer les pratiques d'astreinte et de gestion d'incident.
Définir des SLO et indicateurs de disponibilité sur les flux les plus critiques de la plateforme.
Mettre en place une logique d'error budgets pragmatique et adaptée au niveau de maturité de l'organisation.
Rédiger et maintenir les runbooks associés aux principaux scénarios d'incident.
Formaliser un processus de postmortem orienté amélioration continue, distinguant clairement symptômes, hypothèses, causes racines et actions correctrices.
Participer aux incidents critiques et aux analyses post-incident afin d'améliorer durablement les pratiques engineering.

Accompagnement des équipes

Diffuser les bonnes pratiques de fiabilité, d'observabilité et d'exploitation au sein des équipes de développement.
Challenger les choix techniques ayant un impact sur la disponibilité, les performances ou l'intégrité des données.
Contribuer à faire émerger une culture partagée de responsabilité opérationnelle, sans créer de lourdeur organisationnelle inutile.
Participer à la structuration progressive d'une fonction Platform / SRE au sein de l'entreprise.

Livrables attendus

Cartographie des principaux risques de fiabilité et priorisation des actions à mener.
Standards d'instrumentation Datadog et dashboards couvrant les services et flux critiques.
Alerting opérationnel sur les métriques clés : heap, OOM, event loop lag, erreurs, latence, saturation et queues.
Runbooks pour les principaux scénarios d'incident.
SLO et indicateurs de fiabilité pour les flux métier les plus sensibles.
Processus de postmortem et modèle de suivi des actions correctrices.
Standards documentés de déploiement sans interruption et de migration de schéma.
Évolution des pipelines CI/CD : builds ciblés, cache, contrôles de sécurité et qualité.
Patterns de résilience réutilisables par les équipes produit et engineering.
Plan de montée en maturité SRE / Platform Engineering à moyen terme.

Résultats attendus à court terme

À 30 jours

Prise en main complète de l'architecture, du monorepo, des pipelines de déploiement et de l'historique des incidents.
Identification des principaux scénarios susceptibles de provoquer un incident de production.
Mise en place ou amélioration de l'instrumentation Datadog sur la consommation mémoire, les OOM et l'event loop lag.
Livraison d'au moins un runbook opérationnel sur un incident critique ou récurrent.
Première priorisation des chantiers de fiabilité et de résilience.

À 60 jours

Mise en place de builds ciblés, de mécanismes de cache et de contrôles Semgrep dans la CI.
Définition de SLO sur les principaux flux métier critiques.
Adoption d'un premier pattern de migration sans interruption par au moins une équipe produit.
Structuration d'une rotation d'astreinte et de runbooks couvrant les incidents les plus fréquents.
Amélioration tangible de la capacité de détection, de diagnostic et de résolution des incidents.

Compétences requises

Indispensables

Minimum 6 ans d'expérience en SRE, Platform Engineering, DevOps ou fiabilité applicative au sein d'une entreprise produit, SaaS ou tech.
Expérience forte de Node.js en production : event loop, mémoire V8, heap, profiling, fuite mémoire, OOM, performance applicative et diagnostic d'incidents.
Très bonne maîtrise de MongoDB à l'échelle : stratégie d'indexation, performance des pipelines d'agrégation, comportement des replica sets, migrations en ligne et optimisation des requêtes.
Expérience concrète sur AWS, ECS et Fargate : task definitions, health checks, auto-scaling, ECR, déploiement de workloads conteneurisés et diagnostic de production.
Maîtrise avancée de Datadog : APM, custom metrics, dashboards, monitors, alerting, traces et tests synthétiques.
Expérience de conception et d'optimisation de pipelines CI/CD avec GitHub Actions.
Bonne compréhension des problématiques de monorepo : builds ciblés, cache, dépendances et optimisation des pipelines.
Solide expérience de gestion d'incidents, participation à des war rooms, rédaction de postmortems et mise en oeuvre d'actions correctrices durables.

Compétences appréciées

Expérience avec NestJS ou un framework Node.js fortement structuré autour de l'injection de dépendances.
Expérience GraphQL en production : détection des N+1, DataLoader, limitations de complexité, optimisation de requêtes et sécurité.
Bonne maîtrise de Redis : cluster, politiques d'éviction, Streams, pub/sub, conventions de clés et performance.
Expérience avec Bull ou des systèmes de queues / workers distribués.
Capacité à écrire ou faire évoluer des règles Semgrep spécifiques à l'organisation.
Expérience dans un environnement FinTech, paiement, transactionnel ou SaaS B2B critique.
Expérience de structuration d'une fonction SRE ou Platform Engineering dans une scale-up.
Sensibilité forte aux problématiques d'intégrité des données, de disponibilité et de SLA client.

Environnement technique

Application : NestJS, Node.js, MongoDB, GraphQL, Redis, Bull
Infrastructure : AWS, ECS, Fargate, ECR, S3, RDS
Observabilité : Datadog, CloudWatch
CI/CD : GitHub Actions, monorepo, services en cours d'extraction
Sécurité : Snyk, Semgrep
Déploiement : ECS Task Definitions, blue/green deployment en cours de structuration

Profil recherché

Nous recherchons un profil senior, autonome et structurant, capable de rester très proche du terrain.

La personne devra être à l'aise pour investiguer un problème complexe en production, lire et challenger du code Node.js, comprendre les interactions entre application, données, infrastructure et delivery, puis transformer les constats en standards simples et réellement adoptés par les équipes.

Ce n'est pas un rôle de management d'équipe à court terme. La priorité est de construire, livrer, transmettre et élever durablement le niveau de fiabilité de la plateforme.

Infos complémentaires

Salaire selon profil

Publiée le 03/07/2026 - Réf : b188c933d995f129221a3a34fa10e6c7

Créez votre compte Hellowork et activez votre alerte Créez une alerte

Métier

Localité

Type de contrat

CDI

CDD

Intérim

Stage

Alternance

Indépendant

Franchise

Associé

Fonctionnaire

Freelance

Stage de lycée

Postuler

Finalisez votre candidature
sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Ingénieur·e DevOps H/F

Bois-Colombes - 92

CDI

Télétravail partiel

Voir l’offre

il y a 24 jours

Responsable DevOps Alm - Platform Engineering H/F

AXA en France

Suresnes - 92

CDI

Télétravail partiel

Voir l’offre

il y a 10 jours

Ingénieur Devsecops H/F

Oreve - Ortec Group

Paris - 75

CDI

Télétravail partiel

Voir l’offre

il y a 19 jours

Voir plus d'offres

Coach Emploi

Bêta

Chargement du coach emploi...

Connectez-vous ou créez un compte pour obtenir une analyse personnalisée de votre CV.

Continuer avec un compte

En dialoguant avec notre assistant IA, vous déclarez avoir pris connaissance de notre politique de confidentialité . Notre assistant IA est en version bêta test et peut faire des erreurs. Pour tout savoir sur le fonctionnement, consultez la notice d'information .

Recherches similaires

Emploi DevOps
Emploi Informatique
Emploi Développeur
Emploi Technicien support informatique
Emploi Product owner
Emploi Technicien informatique
Emploi Développeur Java
Entreprises Informatique
Entreprises DevOps
Entreprises Paris
Emploi Freelance
Emploi Freelance informatique
Emploi Senior
Emploi Expert
Emploi Télétravail
Emploi Télétravail Paris
Emploi Senior Paris
Emploi Consultant Paris
Emploi Urgent Paris
Emploi Freelance Paris

Accueil
Emploi
Emploi Paris
Emploi Informatique Paris
Emploi DevOps Paris
Sre - Site Reliabiltiy Engineer - DevOps H/F

Les sites

HelloCV
Helloworkplace
BDM
Jobijoba
Maformation
Diplomeo

L'emploi

Offres d'emploi par métier
Offres d'emploi par ville
Offres d'emploi par entreprise
Offres d'emploi par mots clés

L'entreprise

Qui sommes-nous ?
On recrute
Accès client

Les apps

Nous suivre sur :

Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact

Sre - Site Reliabiltiy Engineer - DevOps H/F collectivite

Les compétences pour ce job

Détail du poste

Infos complémentaires

Finalisez votre candidature sur le site du partenaire

Ces offres pourraient aussi vous intéresser

Recherches similaires

Sre - Site Reliabiltiy Engineer - DevOps H/F
collectivite

Finalisez votre candidature
sur le site du partenaire

Ces offres pourraient aussi
vous intéresser