Complétez votre profil pour recevoir des offres adaptées.

Mon espace

Mes CV vus

Mes candidatures

Mes alertes

Mon profil

Paramètres

Déconnexion

Missions d'intérim
Offres de stage
Offres en alternance
Créer mon alerte
Déposer mon CV
Salaire brut net

Téléchargez l'app et postulez dans les premiers !

Diffuser ma première offre Déjà client

Téléchargez l'app et postulez dans les premiers !

Se connecter S'inscrire Formation

Téléchargez l'app et postulez dans les premiers !

Trouver mon job s

Trouver mon entreprise s

Accès recruteur

Diffuser ma première offre

Déjà client

Emploi

Missions d'intérim

Offres de stage

Offres en alternance

Créer mon alerte

Déposer mon CV

Salaire brut net

Formation

Se connecter

S'inscrire

Trouver mon job s

Trouver mon entreprise s

Mon espace

Mes CV vus

Mes candidatures

Mes alertes

Mon profil

Paramètres

Déconnexion

Pas de salaire renseigné

Le recruteur n'a pas communiqué le salaire pour cette offre, ou n'a pas souhaité l'afficher.

Testeur QA IA Gen H/F
collectivite

Paris - 75
Freelance
Bac +5
Services aux Entreprises
Exp. 1 an min.

Lire dans l'app

Postuler sur le site du partenaire

Détail du poste

Information importante

Type de contrat:

Freelance

Taux journalier :

300

Cette offre est à 0% de commission 🎉

Localisation :

Paris, France

Date de démarrage :

2 à 4 semaines

Mode de travail :

Hybride

Publié le :

10 juin 2026

Le besoin

Missions

Stratégie et cadrage de la recette (20 %)

Définir la stratégie de recette et les plans de test associés à chaque cas d'usage RAG Agentique (cadrage fonctionnel et technique, critères d'acceptation, métriques d'évaluation).
Formaliser les jeux de tests, les golden sets et les protocoles d'évaluation propres à un système RAG : pertinence, fidélité (faithfulness), groundedness, hallucinations, robustesse aux prompts adverses, latence, coût.
Contribuer à la gouvernance qualité des 50+ cas d'usage : matrice de couverture, suivi de non-régression, rituels de validation, comités de mise en production.

Implémentation et exécution des recettes (80 %)

Scripting et automatisation des campagnes de test (Python principalement) : exécution massive, parallélisation, collecte de logs et de métriques.
Construction et maintenance des datasets de recette : extraction et préparation de corpus, parsing de documents hétérogènes (PDF, HTML, Office, scans OCR), chunking adapté aux uses cases.
Génération d'embeddings de test et validation des index vectoriels (recall@k, MRR, qualité de la similarité, taille de chunks, stratégies de fenêtrage).
Tests des workflows agentiques : validation des chaînes d'agents, des outils invoqués (function calling), du routage des intentions, de la gestion d'erreurs et des fallbacks.
Mise en place d'évaluations LLM-as-a-judge (rubrics, scoring automatique, calibration par échantillonnage humain).
Tests de non-régression sur prompts, modèles (changements de version) et sources documentaires (mises à jour de la base).
Tests de robustesse et de sécurité : jailbreak, prompt injection, leakage de données sensibles, biais, conformité aux exigences réglementaires bancaires.
Reporting des défauts et collaboration directe avec les équipes Data/ML/Dev pour le débogage et la correction.
Contribution à l'outillage de recette : développement de helpers internes, intégration aux pipelines CI/CD, dashboards de qualité (Streamlit, Grafana, etc.).

Communication et accompagnement

Restituer les résultats de recette de manière synthétique aux Product Owners, équipes IT et métiers.
Documenter les bonnes pratiques de recette IA générative et contribuer au socle méthodologique de l'équipe Assets IA.
Participer aux communautés QA / GenAI 4 Dev du Groupe et y partager les retours d'expérience.

Compétences techniques attendues

Expérience confirmée en recette / QA sur des produits data, IA ou applicatifs critiques (idéalement secteur bancaire/assurance).
Maîtrise solide de Python : scripting, automatisation, manipulation de données, librairies de test (pytest, unittest).
Connaissance pratique des composants RAG : parsing (Unstructured, PyMuPDF, LlamaParse), chunking (recursive, semantic, hybride), modèles d'embeddings (OpenAI, Mistral, Cohere, BGE, etc.), bases vectorielles (Pinecone, Weaviate, Qdrant, FAISS, pgvector), reranking.
Connaissance des frameworks LLM/Agents : LangChain, LlamaIndex, LangGraph, Semantic Kernel, ou équivalents propriétaires.
Frameworks d'évaluation RAG : RAGAS, TruLens, DeepEval, Promptfoo, Giskard, Arize Phoenix, ou benchmarks internes.
Pratique de l'orchestration de workflows : génération et test de workflows agentiques (LangGraph, n8n, Make, ou framework maison).
Manipulation d'API LLM : OpenAI, Azure OpenAI, Anthropic, Mistral, Bedrock - gestion du rate limiting, retry, instrumentation.
Git, CI/CD, Docker : intégration des tests aux pipelines, capacité à industrialiser une chaîne de recette.
Notions de MLOps / LLMOps : versioning de prompts, tracking d'expérimentations (MLflow, Weights & Biases, Langfuse), monitoring de production.
Capacité à réaliser des expérimentations techniques (POC de scripts d'évaluation, prototypes de pipelines de recette) en autonomie.

Soft skills

Rigueur et esprit d'analyse poussés - la qualité d'un système RAG se joue dans le détail.
Pragmatisme et capacité à arbitrer entre couverture exhaustive et délais industriels.
Excellentes capacités rédactionnelles (rapports de recette, documentation technique) et de présentation orale.
Curiosité technologique : veille active sur les méthodes d'évaluation des LLM et systèmes agentiques.
Coordination, sens du service et du dialogue avec des interlocuteurs variés (Data Scientists, Devs, Architects, PO, métiers).
Capacité d'initiative, force de proposition sur l'amélioration des process de recette.
Anglais courant impératif pour ce poste (documentation technique, échanges internationaux).

Profil recherché

Expérience confirmée en recette / QA sur des produits data, IA ou applicatifs critiques (idéalement secteur bancaire/assurance)
Maîtrise solide de Python : scripting, automatisation, manipulation de données, librairies de test (pytest, unittest)
Connaissance pratique des composants RAG : parsing (Unstructured, PyMuPDF, LlamaParse), chunking (recursive, semantic, hybride), modèles d'embeddings (OpenAI, Mistral, Cohere, BGE, etc.), bases vectorielles (Pinecone, Weaviate, Qdrant, FAISS, pgvector), reranking
Connaissance des frameworks LLM/Agents : LangChain, LlamaIndex, LangGraph, Semantic Kernel, ou équivalents propriétaires
Connaissance des frameworks d'évaluation RAG : RAGAS, TruLens, DeepEval, Promptfoo, Giskard, Arize Phoenix, ou benchmarks internes
Pratique de l'orchestration de workflows : génération et test de workflows agentiques (LangGraph, n8n, Make, ou framework maison)
Manipulation d'API LLM : OpenAI, Azure OpenAI, Anthropic, Mistral, Bedrock - gestion du rate limiting, retry, instrumentation
Git, CI/CD, Docker : intégration des tests aux pipelines, capacité à industrialiser une chaîne de recette
Notions de MLOps / LLMOps : versioning de prompts, tracking d'expérimentations (MLflow, Weights & Biases, Langfuse), monitoring de production
Capacité à réaliser des expérimentations techniques (POC de scripts d'évaluation, prototypes de pipelines de recette) en autonomie
Rigueur et esprit d'analyse poussés
Pragmatisme et capacité à arbitrer entre couverture exhaustive et délais industriels
Excellentes capacités rédactionnelles et de présentation orale
Curiosité technologique : veille active sur les méthodes d'évaluation des LLM et systèmes agentiques
Coordination, sens du service et du dialogue avec des interlocuteurs variés (Data Scientists, Devs, Architects, PO, métiers)
Capacité d'initiative, force de proposition sur l'amélioration des process de recette
Anglais courant impératif pour ce poste (documentation technique, échanges internationaux)

Publiée le 11/06/2026 - Réf : a8ec45e8264c2bb5f9a471b27f8b1d98

Créez votre compte Hellowork et activez votre alerte Créez une alerte

Métier

Localité

Type de contrat

CDI

CDD

Intérim

Stage

Alternance

Indépendant

Franchise

Associé

Fonctionnaire

Freelance

Stage de lycée

Postuler

Finalisez votre candidature
sur le site du partenaire

Créez votre compte
Hellowork et postulez

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Ingénieur Tests & Validation H/F

Procemo

Versailles - 78

CDI

Voir l’offre

il y a 4 jours

Data Quality Analyst - Datamart MOA Assurance H/F

MACSF

Puteaux - 92

Intérim

36 000 - 38 000 € / an

Voir l’offre

il y a 9 jours

Ingénieur Qualité Logiciel H/F

MBDA

Le Plessis-Robinson - 92

CDI

Voir l’offre

il y a 27 jours

Voir plus d'offres

Coach Emploi

Bêta

Chargement du coach emploi...

Connectez-vous ou créez un compte pour obtenir une analyse personnalisée de votre CV.

Continuer avec un compte

En dialoguant avec notre assistant IA, vous déclarez avoir pris connaissance de notre politique de confidentialité . Notre assistant IA est en version bêta test et peut faire des erreurs. Pour tout savoir sur le fonctionnement, consultez la notice d'information .

Recherches similaires

Emploi Testeur QA
Emploi Informatique
Emploi Développeur
Emploi Technicien support informatique
Emploi Technicien informatique
Emploi Product owner
Emploi Développeur Java
Entreprises Informatique
Entreprises Testeur QA
Entreprises Paris
Emploi Freelance
Emploi Freelance informatique
Emploi QA
Emploi Junior
Emploi Anglais
Emploi Junior Paris
Emploi Anglais Paris
Emploi Juin Paris
Emploi Freelance Paris
Emploi Freelance informatique Paris

Voir plus Voir moins

Accueil
Emploi
Emploi Paris
Emploi Informatique Paris
Emploi Testeur QA Paris
Testeur QA IA Gen H/F

Les sites

HelloCV
Helloworkplace
BDM
Jobijoba
Maformation
Diplomeo

L'emploi

Offres d'emploi par métier
Offres d'emploi par ville
Offres d'emploi par entreprise
Offres d'emploi par mots clés

L'entreprise

Qui sommes-nous ?
On recrute
Accès client

Les apps

Nous suivre sur :

Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact

Testeur QA IA Gen H/F collectivite

Détail du poste

Finalisez votre candidature sur le site du partenaire

Ces offres pourraient aussi vous intéresser

Recherches similaires

Testeur QA IA Gen H/F
collectivite

Finalisez votre candidature
sur le site du partenaire

Ces offres pourraient aussi
vous intéresser