Data Engineer - Databricks - Pyspark - Lakehouse H/F DGTL Performance
- Paris - 75
- CDI
- Bac +2
- Bac +3, Bac +4
- Bac +5
- Secteur informatique • ESN
- Exp. 2 à 5 ans
Les compétences pour ce job
- Gouvernance des données
Détail du poste
Dans le cadre d'un projet de transformation data d'envergure au sein d'un grand groupe du secteur de l'énergie, nous recherchons un Data Engineer confirmé pour renforcer une équipe spécialisée dans la modernisation et l'industrialisation de la plateforme de données, articulée autour de Databricks et d'une architecture Lakehouse.
Vous intégrerez une équipe pluridisciplinaire (Data Engineers, Data Analysts, Data Scientists, équipes métier) évoluant dans un environnement Agile, avec des enjeux forts de fiabilité, de performance et de gouvernance des données. La mission couvre à la fois des dimensions d'architecture, de développement de pipelines, d'administration de la plateforme Databricks et de mise en conformité avec les standards de qualité et de sécurité de la donnée. Vous contribuerez activement à la standardisation des pratiques d'ingénierie data, à la documentation des flux et modèles, ainsi qu'à l'accompagnement des utilisateurs dans l'adoption des outils.
Responsabilités :
- Concevoir et développer des pipelines de données robustes sur Databricks (PySpark, Spark SQL, Delta Live Tables)
- Mettre en place et faire évoluer des architectures Lakehouse reposant sur Delta Lake
- Industrialiser les workflows ETL/ELT via Databricks Workflows, en assurant fiabilité, scalabilité et maintenabilité
- Administrer l'espace de travail Databricks : gestion des workspaces, clusters, permissions et accès utilisateurs
- Optimiser les coûts de la plateforme grâce à la configuration fine des clusters, à l'autoscaling et au monitoring
- Implémenter les bonnes pratiques de sécurité et de gouvernance (Unity Catalog, gestion des accès, data lineage)
- Mettre en oeuvre des mécanismes de qualité et de validation des données (expectations, tests, contrôles de fraîcheur)
- Documenter les modèles de données et les flux au sein de la plateforme
- Collaborer étroitement avec les équipes Data Analytics, Data Science et métier pour comprendre et répondre aux besoins fonctionnels
- Participer aux revues de code, à la définition des standards et au partage des bonnes pratiques au sein de l'équipe
- Accompagner les utilisateurs dans la montée en compétences et l'adoption de l'environnement Databricks
Profil :
Indispensables :
- Maîtrise de PySpark et/ou Spark SQL pour le développement de pipelines de données à grande échelle
- Expérience significative sur la plateforme Databricks : pipelines, clusters, notebooks, Unity Catalog
- Bonne connaissance des architectures Lakehouse et du format Delta Lake
- Solides compétences en ETL/ELT, data modeling et ingestion de données (batch et streaming)
- Connaissance d'au moins un environnement cloud : Azure, AWS ou GCP
- Maîtrise de Git et des pratiques CI/CD (Azure DevOps, GitHub Actions ou équivalent)
- Formation Bac +5 en informatique, data ou domaine équivalent
- Expérience de 2 à 5 ans en data engineering ou sur des missions centrées sur la plateforme Databricks
- Capacité à travailler en équipe transverse, sens aigu de la documentation et autonomie dans la gestion des tâches
Fortement appréciés :
- Connaissances en MLflow, orchestration de modèles et pratiques MLOps
- Notions en DataOps, optimisation des coûts cloud et mise en place de dispositifs de monitoring
- Expérience en exploitation et intégration d'APIs REST dans des pipelines de données
- Pratique de l'ingestion de données en temps réel, notamment via Apache Kafka ou des technologies équivalentes
- Appétence pour la veille technologique et la contribution à l'amélioration continue des pratiques d'ingénierie data
Publiée le 26/06/2026 - Réf : 2627028