ML-Engineer Skill-Roadmap für 2026
ML-Engineering teilt sich 2026 zwischen klassischem ML (tabellarische Modelle, Ranking, Fraud, Forecasting) und LLM-Engineering (RAG, Fine-Tuning, Evals, Agents) auf. Die meisten neuen Hires berühren beides. Diese Roadmap deckt den Stack, die Soft Skills und den 12-Monats-Plan ab, um ein einstellbarer ML-Engineer zu werden.
Die Rolle hat sich in den letzten zwei Jahren schneller verändert als jede andere Engineering-Spezialisierung. Vor 2023 waren ML-Engineers vor allem Modell-Trainer. 2026 sind die meisten ML-Engineers Systems-Engineers, die zufällig Modelle deployen — sie bauen mehr Evals, Pipelines, Retrieval-Systeme und Inferenz-Services, als sie Basismodelle trainieren. Die Konsequenz: Wenn Sie nur trainieren können, sind Sie für das Hiring 2026 unzureichend vorbereitet.
Wer ist ein ML-Engineer im Jahr 2026
Die Rolle umfasst mehrere Ausprägungen. Die meisten Stellenanzeigen fragen nach einer oder zwei von:
- Klassische ML-Modelle trainieren und deployen (Ranking, Empfehlungen, Forecasting, Fraud).
- LLM-Features bauen: RAG über Unternehmensdaten, Prompt Engineering, Evals, Fine-Tuning wo nötig.
- Die Inferenz-Pipeline verantworten: Serving, Batching, Latenzziele, Kosten.
- Produktionscode schreiben — keine Jupyter-Notebooks — mit Tests und CI.
- Mit dem Produkt zusammenarbeiten, was zu bauen ist, mit Data-Engineering an den Inputs, mit Platform am Serving.
Junior ML-Engineer: trainiert ein Modell, liefert es mit leichter Begleitung hinter einem Endpoint aus. Mid-Level: verantwortet ein Modell End-to-End, inklusive seiner Evals und Degradationsmodi. Senior: trifft die Build-vs-Buy-Entscheidung, entwirft das Eval-Harness, leitet die Incident-Response, wenn das Modell in der Produktion regrediert.
Core-Stack — was man wirklich lernen sollte
Mathe & ML-Grundlagen
Lineare Algebra (gerade genug, um Paper zu lesen), Wahrscheinlichkeit, Intuition für Gradient Descent, Bias/Variance, Regularisierung, Evaluationsmetriken (Precision/Recall, AUC, Kalibrierung). Sie müssen 2026 Backprop nicht von Hand herleiten, sollten es aber konzeptionell verstehen.
Python auf Produktionsniveau
Typing/Pydantic, pytest, FastAPI fürs Serving, NumPy, pandas, Polars. Async-Grundlagen fürs Serving. Der Notebooks-only ML-Engineer ist ein 2018er-Archetyp.
Klassisches ML
scikit-learn, XGBoost/LightGBM/CatBoost, Feature Engineering, Cross-Validation, Vermeidung von Leakage, Arbeit mit unbalancierten Daten.
Deep Learning
PyTorch (Standard), Lightning, wenn Sie Trainings-Scaffolding wollen, Hugging Face Transformers, Accelerators (CUDA-Grundlagen, Mixed Precision).
LLMs in der Produktion (Essentials 2026)
OpenAI-/Anthropic-/Google-APIs mit Streaming, strukturierte Outputs, Function/Tool Calling, RAG-Architekturen, hybrides Retrieval (BM25 + Vektor), Reranking, Evaluations-Frameworks (Ragas, eigene Evals).
Fine-Tuning & Inferenz
LoRA/QLoRA für Adapter-Fine-Tuning, vLLM oder sGLang für Inferenz, Quantisierung (fp8, int4), Batching, mentales Modell des KV-Cache. Wissen, wann man NICHT fine-tunt (Prompt + RAG reicht meist).
Vektordatenbanken & Retrieval
pgvector, Qdrant, Weaviate, Embeddings-Modelle (OpenAI, Cohere, BGE), Chunking-Strategien, Recall vs. Precision im Retrieval, Eval-Queries.
MLOps
Experiment-Tracking (Weights & Biases oder MLflow), Model Registry, Feature Stores in größeren Unternehmen (Feast), Inferenz-Serving (Triton, KServe, BentoML), Monitoring von Drift und Qualität.
Evaluations-Disziplin
Eval-Datasets aufbauen, LLM-as-Judge mit seinen Vorbehalten, Golden Tests, Regressionstests in CI, Online- vs. Offline-Metriken, A/B-Testing für Modelle.
Frontier 2026
Agentische Workflows, MCP, mehrstufige Tool-Nutzung, Structured Generation (Outlines, Instructor), kleine Modelle (Phi, Qwen) für kostenoptimierte Aufgaben, On-Device-Inferenz.
Soft Skills und Systemdenken
- Evals als Gewohnheit. Wenn Sie die Modellqualität nicht messen können, können Sie sie nicht verbessern. Den Eval zu bauen ist die halbe Arbeit; viele Engineers überspringen ihn und bereuen es.
- Skepsis gegenüber Demos. Eine LLM-Demo mit fünf handverlesenen Beispielen ist kein System. Der Senior-Reflex lautet „zeig mir 100 Beispiele und die Aufschlüsselung der Fehlerszenarien“.
- Kostendenken. Token-Kosten, GPU-Kosten, Latenz-Kosten. Das richtige Modell für eine Aufgabe ist selten das größte.
- Produkt-Zusammenarbeit. Der Erfolg eines ML-Features hängt davon ab, dass das, was Sie messen, das ist, was Nutzer wollen. Definieren Sie die Erfolgsmetrik gemeinsam mit dem Produkt, bevor Sie bauen.
- Bewusstsein für Degradation. Modelle driften, Basismodelle werden abgekündigt, Prompts brechen, wenn Provider aktualisieren. Planen Sie dafür.
Empfohlener 3-/6-/12-Monats-Plan
Monate 1–3: Grundlagen
- Frischen Sie Python und ML-Mathe auf. Andrew Ngs Machine Learning Specialization oder fast.ai für den praktischen Track.
- Bauen Sie zwei klassische ML-Projekte mit echten Datasets: einen Classifier und eine Regression. Dokumentieren Sie Ihre Evaluation.
- Richten Sie PyTorch lokal ein. Trainieren Sie ein kleines Modell von Grund auf (MNIST-Niveau), ein Fine-Tune mit Hugging Face.
Monate 4–6: ein LLM-Projekt
- Bauen Sie ein RAG-System über Ihre eigenen Dokumente: Chunking, Embeddings, Retrieval, Reranking, Generation.
- Bauen Sie ein Eval-Set (50–100 Fragen mit Referenzantworten). Messen Sie Precision und Recall.
- Deployen Sie es hinter einem FastAPI-Endpoint mit Streaming. Bringen Sie es bei echten Nutzern zum Laufen (Sie selbst, ein Freund).
- Lesen Sie „Designing Machine Learning Systems“ (Chip Huyen) oder Vergleichbares.
Monate 7–12: Tiefe und Interviews
- Bauen Sie ein ambitionierteres Projekt: einen Agent mit Tool-Nutzung, ein fine-getuntes Domänenmodell oder eine multimodale Pipeline.
- Lesen Sie 3–5 grundlegende Paper (Attention Is All You Need, das ursprüngliche RAG, LoRA) und 5–10 aktuelle in Ihrem Bereich.
- Üben Sie ML-System-Design: entwerfen Sie ein Empfehlungssystem, eine Moderations-Pipeline, eine RAG-App.
- Bewerben Sie sich mit einem Portfolio, das ein ausgeliefertes LLM-Projekt und ein klassisches ML-Projekt mit dokumentierten Evals enthält.
Side-Projects zum Bauen
- Eine RAG-App mit echten Evals. Öffentliches Dataset, öffentliches Eval-Set, veröffentlichte Zahlen. Zeigt methodische Sorgfalt.
- Ein Fine-Tuning-Projekt. LoRA auf einem kleinen Open-Modell für eine spezifische Aufgabe. Zeigen Sie den Vergleich Basis vs. fine-getunt.
- Ein klassisches ML-Produktions-Deploy. XGBoost-Ranking-Modell hinter einer API mit Monitoring. Zeigt, dass Sie Nicht-LLM-ML ausliefern können.
- Ein Agent, der eine nützliche Sache tut. Kalender-Assistent, Code-Reviewer, Recherche-Assistent. Tool-Nutzung + strukturierte Outputs + Evals.
Evals bauen — die eigentliche Superkraft des Senior ML-Engineers
Den meisten ML-Demos fehlt nur ein Eval, um Produktions-Features zu sein. Der Eval ist das Asset, das ein Modell verbesserbar macht.
- Bauen Sie das Eval-Set vor dem Modell. 50–100 repräsentative Beispiele mit Referenz-Outputs oder bewerteten Antworten. Handkuratiert schlägt synthetisch für die erste Version.
- Mehrere Metriken, nicht eine. Exact Match plus semantische Ähnlichkeit plus ein rubrikbasierter LLM-as-Judge für Nuancen. Eine einzelne Metrik lügt irgendwann immer.
- Nach Nutzersegment slicen. „90 % Genauigkeit“ kann „30 % bei Power-Usern“ verbergen. Slicen Sie nach Sprache, nach Query-Typ, nach Nutzer-Tenure.
- Evals in CI ausführen. Jede Prompt-Änderung, jedes Modell-Upgrade triggert das Eval-Set. Regressions-Alerts gehen in einen Slack-Channel.
- Offline mit Online verbinden. Ein bestandener Eval bedeutet nicht, dass der Nutzer zufrieden ist. Koppeln Sie ihn mit Online-Metriken (Daumen hoch, Follow-up-Rate, Conversion) und beobachten Sie die Korrelation.
- Drift-Erkennung. Die Verteilung der Inputs ändert sich über die Zeit. Das vor sechs Monaten gebaute Eval-Set deckt die Queries, die Sie sehen, nicht mehr ab. Vierteljährlich auffrischen.
- Failure-Case-Mining. Jeder Daumen runter oder jede Eskalation wird zum Kandidaten fürs Eval-Set. Das Dataset wächst, indem Sie Ihre schlimmsten Momente sammeln.
In Interviews ist „wir haben ein 200-Beispiele-Eval-Set mit drei Metriken gebaut und es bei jedem PR ausgeführt, was eine 7-Punkte-Regression abfing, als wir Modelle tauschen wollten“ die Art von Antwort, die Senior signalisiert. „Das neue Modell fühlte sich in Stichproben besser an“ ist die Antwort, die das nicht tut.
Wie Sie die ML-Stelle bekommen
- Lebenslauf-Keywords. PyTorch, Hugging Face, LangChain oder LlamaIndex (oder „ohne Framework gebaut“, falls zutreffend), RAG, Evaluation, vLLM/sGLang falls relevant, Ihre Cloud, Ihre Vektor-DB.
- Ein Repo mit dokumentierten Evals. Das aussagekräftigste einzelne Artefakt für ML-Hiring 2026.
- Interview-Runden: Coding, ML-Breite, ML-System-Design, Behavioral, manchmal ein Take-home. Die System-Design-Runde ist inzwischen meist LLM-geprägt.
- Die System-Design-Runde. Üben Sie „entwirf ein Suchsystem“, „entwirf eine Moderations-Pipeline“, „entwirf ein RAG für Support-Docs“. Beziehen Sie jedes Mal eine Evaluationsstrategie ein.
- Coding-Runde. Oft reines Python, manchmal die Implementierung eines kleinen Algorithmus (k-NN, Attention, Evaluationsfunktion). Frischen Sie das auf.
FAQ
Brauche ich 2026 einen PhD, um ML-Engineer zu sein?
Nein. Ein PhD ist meist für Research-Engineer-Rollen in Frontier-Labs erforderlich. Die meisten Produkt-ML-Engineering-Hires haben keinen. Ein starkes angewandtes Portfolio schlägt in den meisten Unternehmen einen Abschluss.
Soll ich zuerst LLMs oder klassisches ML lernen?
Zuerst klassisches ML. Drei Monate mit tabellarischen Daten und scikit-learn lehren Sie Datendisziplin, Evaluation und Feature-Denken, das die LLM-Arbeit voraussetzt. Wechseln Sie dann zu LLMs.
Muss ich für den Job Modelle fine-tunen?
Seltener, als Sie denken. Die meisten Produktions-LLM-Features funktionieren mit Prompts + RAG + einem starken Eval-Set. Fine-Tuning taucht in Unternehmen mit domänenspezifischen Aufgaben oder Kostenbeschränkungen auf.
Wie wichtig sind Mathe-Grundlagen?
Genug, um Paper zu lesen und zu verstehen, was Sie nutzen. Sie müssen keine Transformer herleiten. Intuition in linearer Algebra, Wahrscheinlichkeit und Gradient Descent auf Konzeptebene deckt die meisten Interview-Fragen ab.
Wie sieht es mit Agents und MCP aus?
Steigt schnell und taucht 2026 in Interviews auf. Bauen Sie sicherheitshalber ein Agent-Projekt. Verstehen Sie Tool Calling, strukturierte Outputs und den Unterschied zwischen „Agent, der in Demos funktioniert“ und „Agent, der in der Produktion mit Evals funktioniert“.