Détail du poste
Rejoins la BU IA & Data ! Tu interviendras sur la conception et l'industrialisation de plateformes Lakehouse modernes sur Databricks, au service de cas d'usage analytiques et IA à fort volume.
Ton équipe
Au sein de la Team IA & Data, tu évolueras dans une structure à taille humaine, conviviale et engagée. Créée il y a quelques années, notre BU a pour vocation de rendre les organisations publiques et privées plus performantes en les accompagnant dans le développement de leur stratégie data. Autonomie, travail hybride, management bienveillant... viens renforcer une équipe d'ingénieurs Data passionnés, sur des projets à impact positif.
À propos de Klee Group
Chez Klee Group, nous imaginons et créons des solutions digitales métier en accompagnant nos clients tout au long du cycle de vie de leur projet numérique. Grâce à notre culture de l'engagement et du résultat, nous proposons et mettons en oeuvre des solutions métier industrielles et sur-mesure.
Agilité, UX, Numérique Responsable, Web, Data, CyberSécurité, DevOps, Cloud... nous proposons à nos clients un véritable panel d'expertises complémentaires incarnées par plus de 1100 talents ! Klee Group réalise 163 millions d'euros de chiffre d'affaires en 2025. Pour plus d'informations, rendez-vous sur www.kleegroup.com
Dans le cadre du développement de notre activité et de l'accompagnement de nos clients dans la valorisation de leur patrimoine data, nous renforçons l'équipe Data / IA par un(e) Data Engineer Databricks confirmé(e), capable de concevoir, construire et fiabiliser des plateformes Lakehouse robustes et d'outiller la mise en production de cas d'usage analytiques et IA.
Le contexte technique
Socle technologique : Databricks (Lakehouse) sur cloud (Azure, AWS ou GCP), architecture Medallion (Bronze / Silver / Gold) sur Delta Lake, avec gouvernance via Unity Catalog. Environnements complexes à fort volume, traitements batch et streaming (Spark Structured Streaming), et préparation des données pour des cas d'usage Data Science, ML et IA générative (RAG).
Le contexte technique
Socle technologique : Databricks (Lakehouse) sur cloud (Azure, AWS ou GCP), architecture Medallion (Bronze / Silver / Gold) sur Delta Lake, avec gouvernance via Unity Catalog. Environnements complexes à fort volume, traitements batch et streaming (Spark Structured Streaming), et préparation des données pour des cas d'usage Data Science, ML et IA générative (RAG).
Compétences clés
Databricks Lakehouse
Delta Lake / Medallion
Apache Spark
Unity Catalog
Python / PySpark
SQL avancé
dbt / Airflow
Databricks Certif
Tes missions
Conception & Build de Lakehouse
Concevoir l'architecture Lakehouse sur Databricks selon les contraintes métier et de volumétrie
Structurer la donnée selon l'architecture Medallion (Bronze / Silver / Gold) sur Delta Lake
Développer les traitements batch et streaming en PySpark / Spark SQL (Spark Structured Streaming, Auto Loader, Delta Live Tables)
Modéliser les couches de présentation (Kimball, étoile / flocon) ; les approches Data Vault 2.0 sont un plus
Mettre en place les pipelines d'ingestion de sources hétérogènes (Kafka, Airbyte, connecteurs natifs)
Orchestrer via Databricks Workflows / Airflow et transformer avec dbt
Optimisation & Fiabilisation
Optimiser les performances Spark : tuning des jobs, gestion des clusters, partitionnement, Z-Ordering, Liquid Clustering
Piloter les coûts de compute (FinOps) : dimensionnement des clusters, photon, autoscaling
Mettre en place la qualité des données (Delta Live Tables expectations, tests dbt, Great Expectations)
Gouverner la donnée via Unity Catalog : gestion des accès, lineage, catalogue
Industrialiser via CI/CD (GitHub Actions, GitLab CI, Databricks Asset Bundles), DataOps et notions de MLOps (MLflow)
Accompagnement & Delivery
Participer aux ateliers de cadrage avec les équipes métier, data et data science
Rédiger la documentation technique et fonctionnelle
Outiller la mise en production de cas d'usage ML et IA générative (préparation de features, pipelines RAG)
Former et faire monter en compétences les équipes client
Travailler en mode agile (Scrum / Kanban), en collaboration avec les Product Owners data
Ton profil
Titulaire d'un Bac +5 (école d'ingénieur ou université à dominante scientifique et technique) en Informatique, Data ou Génie logiciel, tu justifies d'au moins 5 ans d'expérience en ingénierie des données, dont une expérience significative sur Databricks et Apache Spark.
Compétences techniques requises
Cloud & Plateforme - Databricks (Lakehouse), Delta Lake, Unity Catalog, sur Azure / AWS / GCP
Traitement de données - Apache Spark (PySpark, Spark SQL), Spark Structured Streaming, Delta Live Tables, Auto Loader
Modélisation - Architecture Medallion, modèles Kimball / étoile-flocon ; Data Vault 2.0 apprécié
Transformation & Orchestration - dbt, Databricks Workflows / Airflow, Kafka
Langages - Python avancé et SQL avancé
Industrialisation - Git, CI/CD (Databricks Asset Bundles, GitHub Actions, GitLab CI), DataOps, Terraform, notions de MLOps (MLflow)
Gouvernance & Qualité - Gouvernance via Unity Catalog : lineage, catalogue, qualité (DLT expectations, Great Expectations)
Restitution - Power BI, Tableau, Databricks SQL / dashboards
Certifications - Certification Databricks Certified Data Engineer (Associate / Professional) vivement appréciée
Soft skills
Autonomie, rigueur et sens du delivery
Capacité à dialoguer avec les équipes métier, data science et à vulgariser
Esprit d'équipe, sens du service et posture conseil
Capacité à collaborer en français et en anglais (écrit et oral)
Au travers de ses recrutements, Klee Group cultive une politique en faveur de la diversité, de l'égalité professionnelle et des travailleurs handicapés.
Déroulement des entretiens
Un premier échange téléphonique avec Christine, Responsable en recrutement
Une rencontre avec un membre de ta future équipe
Un dernier échange avec ton futur Manager !
Nous avons hâte de faire ta connaissance !
Klee Group en images
Publiée le 12/06/2026 - Réf : teamtailor-7896109-2049421