Feuille de route des compétences ML engineer pour 2026
L'ingénierie ML en 2026 se partage entre le ML classique (modèles tabulaires, ranking, fraude, prévision) et l'ingénierie LLM (RAG, fine-tuning, évaluations, agents). La plupart des nouvelles recrues touchent aux deux. Cette feuille de route couvre la stack, les compétences transverses et le plan sur 12 mois pour devenir un ML engineer recrutable.
Le rôle a changé plus vite que toute autre spécialité d'ingénierie ces deux dernières années. Avant 2023, les ML engineers étaient surtout des entraîneurs de modèles. En 2026, la plupart des ML engineers sont des ingénieurs systèmes dont le travail consiste accessoirement à déployer des modèles — ils construisent des évaluations, des pipelines, des systèmes de retrieval et des services d'inférence plus qu'ils n'entraînent de modèles de base. La conséquence : si vous savez seulement entraîner, vous êtes sous-préparé pour le recrutement de 2026.
Qu'est-ce qu'un ML engineer en 2026
Le rôle couvre plusieurs variantes. La plupart des annonces demandent une ou deux d'entre elles :
- Entraîner et déployer des modèles ML classiques (ranking, recommandations, prévision, fraude).
- Construire des fonctionnalités LLM : RAG sur les données de l'entreprise, prompt engineering, évaluations, fine-tuning au besoin.
- Être responsable du pipeline d'inférence : serving, batching, objectifs de latence, coût.
- Écrire du code de production — pas des notebooks Jupyter — avec tests et CI.
- Collaborer avec le produit sur ce qu'il faut construire, avec l'ingénierie des données sur les entrées, avec la plateforme sur le serving.
ML engineer junior : entraîne un modèle, le livre derrière un endpoint avec une supervision légère. Mid : est responsable d'un modèle de bout en bout, y compris ses évaluations et ses modes de dégradation. Senior : tranche la décision build-vs-buy, conçoit le harnais d'évaluation, mène la réponse aux incidents quand le modèle régresse en production.
Stack de base — ce qu'il faut réellement apprendre
Maths & fondamentaux du ML
Algèbre linéaire (juste assez pour lire des articles), probabilités, intuition de la descente de gradient, biais/variance, régularisation, métriques d'évaluation (précision/rappel, AUC, calibration). Vous n'avez pas besoin de dériver la rétropropagation à la main en 2026, mais vous devez la comprendre conceptuellement.
Python au niveau production
typing/Pydantic, pytest, FastAPI pour le serving, NumPy, pandas, Polars. Bases de l'asynchrone pour le serving. Le ML engineer cantonné aux notebooks est un archétype de 2018.
ML classique
scikit-learn, XGBoost/LightGBM/CatBoost, feature engineering, validation croisée, évitement des fuites, travail avec des données déséquilibrées.
Deep learning
PyTorch (par défaut), Lightning si vous voulez un échafaudage d'entraînement, Hugging Face Transformers, accélérateurs (bases CUDA, précision mixte).
LLM en production (essentiels 2026)
Appel des API OpenAI/Anthropic/Google avec streaming, sorties structurées, function/tool calling, architectures RAG, retrieval hybride (BM25 + vecteur), reranking, frameworks d'évaluation (Ragas, évaluations personnalisées).
Fine-tuning & inférence
LoRA/QLoRA pour le fine-tuning par adaptateur, vLLM ou sGLang pour l'inférence, quantification (fp8, int4), batching, modèle mental du KV cache. Savoir quand NE PAS faire de fine-tuning (prompt + RAG suffit généralement).
Bases de données vectorielles & retrieval
pgvector, Qdrant, Weaviate, modèles d'embeddings (OpenAI, Cohere, BGE), stratégies de chunking, rappel vs précision dans le retrieval, requêtes d'évaluation.
MLOps
Suivi d'expériences (Weights & Biases ou MLflow), registre de modèles, feature stores dans les grandes entreprises (Feast), serving d'inférence (Triton, KServe, BentoML), supervision de la dérive et de la qualité.
Discipline d'évaluation
Construire des jeux de données d'évaluation, LLM-as-judge avec ses réserves, tests de référence, tests de régression en CI, métriques online vs offline, A/B testing pour les modèles.
Frontière 2026
Workflows agentiques, MCP, usage d'outils multi-étapes, génération structurée (Outlines, Instructor), petits modèles (Phi, Qwen) pour les tâches optimisées en coût, inférence on-device.
Compétences transverses et pensée systémique
- Les évaluations comme habitude. Si vous ne pouvez pas mesurer la qualité du modèle, vous ne pouvez pas l'améliorer. Construire l'évaluation est la moitié du travail ; beaucoup d'ingénieurs la sautent et le regrettent.
- Scepticisme envers les démos. Une démo de LLM avec cinq exemples triés sur le volet n'est pas un système. Le réflexe senior est « montrez-moi 100 exemples et la ventilation des modes de défaillance ».
- Pensée par les coûts. Coût en tokens, coût GPU, coût en latence. Le bon modèle pour une tâche est rarement le plus grand.
- Collaboration avec le produit. Le succès d'une fonctionnalité ML dépend de l'adéquation entre ce que vous mesurez et ce que veulent les utilisateurs. Définissez la métrique de succès avec le produit avant de construire.
- Conscience de la dégradation. Les modèles dérivent, les modèles de base sont retirés, les prompts se cassent lorsque les fournisseurs publient une mise à jour. Anticipez-le.
Plan suggéré sur 3 / 6 / 12 mois
Mois 1–3 : fondations
- Rafraîchissez Python et les maths du ML. La Machine Learning Specialization d'Andrew Ng ou fast.ai pour la voie pratique.
- Construisez deux projets de ML classique avec de vrais jeux de données : un classifieur et une régression. Documentez votre évaluation.
- Installez PyTorch en local. Entraînez un petit modèle depuis zéro (niveau MNIST), faites un fine-tune avec Hugging Face.
Mois 4–6 : un projet LLM
- Construisez un système RAG sur vos propres documents : chunking, embeddings, retrieval, reranking, génération.
- Construisez un jeu d'évaluation (50 à 100 questions avec réponses de référence). Mesurez la précision et le rappel.
- Déployez-le derrière un endpoint FastAPI avec streaming. Faites-le fonctionner sur de vrais utilisateurs (vous-même, un ami).
- Lisez « Designing Machine Learning Systems » (Chip Huyen) ou équivalent.
Mois 7–12 : profondeur et entretiens
- Construisez un projet plus ambitieux : un agent avec usage d'outils, un modèle de domaine fine-tuné, ou un pipeline multimodal.
- Lisez 3 à 5 articles fondateurs (Attention Is All You Need, le RAG original, LoRA) et 5 à 10 articles récents dans votre domaine.
- Entraînez-vous au system design ML : concevez un système de recommandation, un pipeline de modération, une application RAG.
- Postulez avec un portfolio qui inclut un projet LLM déployé et un projet de ML classique avec des évaluations documentées.
Projets personnels à construire
- Une application RAG avec de vraies évaluations. Jeu de données public, jeu d'évaluation public, chiffres publiés. Démontre la rigueur.
- Un projet de fine-tuning. LoRA sur un petit modèle ouvert pour une tâche spécifique. Montrez la comparaison base vs fine-tuné.
- Un déploiement de ML classique en production. Modèle de ranking XGBoost derrière une API avec supervision. Montre que vous savez livrer du ML non-LLM.
- Un agent qui fait une chose utile. Assistant agenda, relecteur de code, assistant de recherche. Usage d'outils + sorties structurées + évaluations.
Construire des évaluations — le vrai super-pouvoir du ML engineer senior
La plupart des démos ML ne sont qu'à une évaluation de devenir des fonctionnalités de production. L'évaluation est l'actif qui rend un modèle améliorable.
- Construisez le jeu d'évaluation avant le modèle. 50 à 100 exemples représentatifs avec des sorties de référence ou des réponses notées. Le travail manuel bat le synthétique pour la première version.
- Plusieurs métriques, pas une seule. Correspondance exacte plus similarité sémantique plus un LLM-as-judge fondé sur une grille pour la nuance. Une seule métrique finit toujours par mentir.
- Découpez par segment d'utilisateurs. « 90 % de précision » peut cacher « 30 % sur les power users ». Découpez par langue, par type de requête, par ancienneté de l'utilisateur.
- Lancez les évaluations en CI. Chaque changement de prompt, chaque montée de version de modèle déclenche le jeu d'évaluation. Les alertes de régression vont dans un canal Slack.
- Reliez l'offline à l'online. Une évaluation réussie ne signifie pas que l'utilisateur est content. Couplez-la à des métriques online (pouce levé, taux de questions de suivi, conversion) et observez la corrélation.
- Détection de dérive. La distribution des entrées change avec le temps. Le jeu d'évaluation construit il y a six mois ne couvre plus les requêtes que vous voyez. Rafraîchissez chaque trimestre.
- Minage des cas d'échec. Chaque pouce baissé ou escalade devient un candidat pour le jeu d'évaluation. Le jeu de données grandit en collectant vos pires moments.
En entretien, « nous avons construit un jeu d'évaluation de 200 exemples avec trois métriques et l'avons lancé sur chaque PR, ce qui a détecté une régression de 7 points quand nous avons tenté de changer de modèle » est le genre de réponse qui signale le niveau senior. « Le nouveau modèle paraissait meilleur sur quelques vérifications » est la réponse qui ne le signale pas.
Comment décrocher le poste ML
- Mots-clés du CV. PyTorch, Hugging Face, LangChain ou LlamaIndex (ou « construit sans framework » si c'est le cas), RAG, évaluation, vLLM/sGLang le cas échéant, votre cloud, votre base vectorielle.
- Un dépôt avec des évaluations documentées. L'artefact au plus fort signal pour le recrutement ML en 2026.
- Manches d'entretien : coding, étendue ML, system design ML, comportemental, parfois un exercice à la maison. La manche de system design est désormais généralement teintée de LLM.
- La manche de system design. Entraînez-vous à « concevez un système de recherche », « concevez un pipeline de modération », « concevez un RAG pour la documentation support ». Incluez la stratégie d'évaluation à chaque fois.
- La manche de coding. Souvent du Python pur, parfois l'implémentation d'un petit algorithme (k-NN, attention, fonction d'évaluation). Révisez-la.
FAQ
Faut-il un doctorat pour être ML engineer en 2026 ?
Non. Le doctorat est surtout requis pour les postes de research engineer dans les labos de pointe. La plupart des recrutements ML produit n'en ont pas. Un solide portfolio appliqué bat un diplôme dans la plupart des entreprises.
Dois-je apprendre les LLM ou le ML classique d'abord ?
Le ML classique d'abord. Trois mois sur des données tabulaires avec scikit-learn vous enseignent la discipline des données, l'évaluation et la pensée par les features que le travail LLM présuppose. Passez ensuite aux LLM.
Dois-je fine-tuner des modèles pour le poste ?
Moins souvent que vous ne le pensez. La plupart des fonctionnalités LLM en production marchent avec prompts + RAG + un solide jeu d'évaluation. Le fine-tuning apparaît dans les entreprises avec des tâches spécifiques au domaine ou des contraintes de coût.
Quelle importance ont les fondamentaux mathématiques ?
Assez pour lire des articles et comprendre ce que vous utilisez. Vous n'avez pas besoin de dériver les transformers. L'intuition d'algèbre linéaire, les probabilités et la descente de gradient au niveau conceptuel couvrent la plupart des questions d'entretien.
Et les agents et MCP ?
En forte hausse et commencent à apparaître dans les entretiens de 2026. Construisez un projet d'agent par sécurité. Comprenez le tool calling, les sorties structurées, et la différence entre « agent qui marche en démo » et « agent qui marche en production avec des évaluations ».