Aller au contenu principal

Ingénieur - Ingénieure Machine Learning H/F Veesion

Bordeaux - 33
CDI
Résumé de l'offre
  • Télétravail complet
  • Bac +5
  • Service public des collectivités territoriales
  • Exp. 1 à 7 ans

Détail du poste

Poste : Ingénieur / Chercheur Deep Learning - LLMs Multimodaux appliqués à la Vidéo (CDI ou Freelance, Full Remote possible)
Domaine : Intelligence Artificielle / Vision par Ordinateur / NLP / Multimodalité
Contexte
Veesion développe des technologies de vision par ordinateur pour détecter automatiquement des gestes de vol en rayon dans les supermarchés.
Nous ouvrons un nouveau chantier : l'application de LLMs multimodaux (MLLMs) à la compréhension de la vidéo, avec un focus sur l'analyse d'actions humaines, la compréhension fine de séquences visuelles, et le reasoning multimodal.
Missions

Implémenter et fine-tuner des modèles LLMs multimodaux open source (ex. : Flamingo, Video-LLaVA, mPLUG-Video, etc.)
Adapter efficacement des repositories GitHub issus de la recherche (exploitation rapide, modification agile)
Développer des pipelines d'entraînement et d'évaluation efficaces sur des données vidéo réelles
Concevoir des entraînements optimisés pour GPU (data pipeline performant, saturation GPU, etc.)
Lire et implémenter des travaux de recherche récents (ACL, CVPR, NeurIPS, etc.)
Participer à la définition de tâches de video understanding : classification d'actions, raisonnement temporel, interprétation de gestes
Construire des métriques pertinentes et les intégrer dans la boucle d'entraînement pour suivi temps réel
Profil recherché

3 ans d'expérience minimum en deep learning (thèse incluse), dont au moins 1 an sur des LLMs multimodaux
Maîtrise des concepts fondamentaux des LLMs : transformers, attention, PEFT, LoRA, prompt tuning, etc.
Expérience concrète en modèles multimodaux texte + vidéo
Capacité à adapter rapidement des architectures complexes à des cas d'usage spécifiques
Bonnes intuitions sur la conception et les limites des modèles actuels
Excellente maîtrise de PyTorch, HuggingFace, et des bonnes pratiques de recherche / prototypage rapide
Bonne connaissance des datasets de video understanding : LVBench, VideoQA, Video-Vista, Next-QA, TVQA, TGIF-QA, etc.
Capacité à citer et discuter les architectures récentes de MLLMs : Flamingo, Video-ChatGPT, mPLUG-Owl, Video-LLaVA, VideoCoCa, etc.
Intérêt pour le reasoning multimodal (interprétation, chaînage, inférence causale, etc.)
Anglais technique courant (lecture de papier, implémentation à partir de code et doc)
Bonus appréciés

Expérience avec des modèles orientés reasoning
Publications en conférence ou participation à des benchmarks publics (LVU Challenge, Ego4D Q&A, etc.)
Connaissances en traitement vidéo (ffmpeg, OpenCV)
Pratique d'outils de suivi d'expériences (W&B, TensorBoard)
Experience en Gen AI vidéo
Stack technique pertinente

PyTorch, HuggingFace, DeepSpeed
OpenCV, ffmpeg
Python 3.10+, Git, Linux, Docker
Contrat et cadre

CDI ou freelance longue durée
Full remote possible
Rémunération compétitive selon expérience
Pour postuler
Envoyez votre CV (et GitHub si disponible) à (adresse email), accompagné de quelques lignes expliquant vos expériences concrètes en MLLMs, video understanding et reasoning multimodal si applicables

Le profil recherché

Experience : 48 Mois

Qualification : Cadre

Secteur d'activité : Programmation informatique

Liste des qualités professionnelles :
Faire preuve de créativité, d'inventivité : Capacité à créer, imaginer quelque chose de nouveau (nouveau produit, nouvelle solution...).
Faire preuve de rigueur et de précision : Capacité à réaliser des tâches en suivant avec exactitude les règles, les procédures, les instructions qui ont été fournies, sans réaliser d'erreur et à transmettre clairement des informations. Se montrer ponctuel et respectueux des règles de savoir-vivre usuelles.
Organiser son travail selon les priorités et les objectifs : Capacité à planifier, prioriser, anticiper des actions, en tenant compte des moyens, des ressources, des objectifs et du calendrier pour les réaliser.

Hellowork a estimé le salaire pour ce métier à Bordeaux

Le recruteur n'a pas communiqué le salaire de cette offre mais Hellowork vous propose une estimation (fourchette variable selon l'expérience).

Estimation basée sur les données INSEE et les offres d’emploi similaires.

Estimation basse

37 500 € / an 3 125 € / mois 20,60 € / heure

Salaire brut estimé

43 800 € / an 3 650 € / mois 24,07 € / heure

Estimation haute

56 200 € / an 4 683 € / mois 30,88 € / heure

Cette information vous semble-t-elle utile ?

Merci pour votre retour !

Ingénieur - Ingénieure Machine Learning H/F
Veesion
  • Bordeaux - 33
  • CDI
Publiée le 26/07/2025 - Réf : 195TNMT

Finalisez votre candidature

sur le site du partenaire

Créez votre compte pour postuler

sur le site du partenaire !

Ces offres pourraient aussi
vous intéresser

Human Immobilier recrutement
Human Immobilier recrutement
Bordeaux - 33
CDI
40 950 - 45 870 € / an
Télétravail occasionnel
Voir l’offre
il y a 10 jours
Madic Industries recrutement
Saint-André-de-Cubzac - 33
CDI
Télétravail partiel
Voir l’offre
il y a 23 jours
Dassault Aviation recrutement
Voir l’offre
il y a 18 jours
Voir plus d'offres
Les sites
L'emploi
  • Offres d'emploi par métier
  • Offres d'emploi par ville
  • Offres d'emploi par entreprise
  • Offres d'emploi par mots clés
L'entreprise
  • Qui sommes-nous ?
  • On recrute
  • Accès client
Les apps
Application Android (nouvelle fenêtre) Application ios (nouvelle fenêtre)
Nous suivre sur :
Informations légales CGU Politique de confidentialité Gérer les traceurs Accessibilité : non conforme Aide et contact