StartseiteSkill-Roadmap › ML-Engineer

ML-Engineer Skill-Roadmap für 2026

ML-Engineering teilt sich 2026 zwischen klassischem ML (tabellarische Modelle, Ranking, Fraud, Forecasting) und LLM-Engineering (RAG, Fine-Tuning, Evals, Agents) auf. Die meisten neuen Hires berühren beides. Diese Roadmap deckt den Stack, die Soft Skills und den 12-Monats-Plan ab, um ein einstellbarer ML-Engineer zu werden.

Die Rolle hat sich in den letzten zwei Jahren schneller verändert als jede andere Engineering-Spezialisierung. Vor 2023 waren ML-Engineers vor allem Modell-Trainer. 2026 sind die meisten ML-Engineers Systems-Engineers, die zufällig Modelle deployen — sie bauen mehr Evals, Pipelines, Retrieval-Systeme und Inferenz-Services, als sie Basismodelle trainieren. Die Konsequenz: Wenn Sie nur trainieren können, sind Sie für das Hiring 2026 unzureichend vorbereitet.

Machen Sie aus dieser Roadmap einen gamifizierten Kurs Quest2Offer erstellt einen ML-Quest-Pfad: PyTorch-Grundlagen, RAG-Projekt, Evals, Deployment und Portfolio-Projekte.
Kurs starten

Wer ist ein ML-Engineer im Jahr 2026

Die Rolle umfasst mehrere Ausprägungen. Die meisten Stellenanzeigen fragen nach einer oder zwei von:

Junior ML-Engineer: trainiert ein Modell, liefert es mit leichter Begleitung hinter einem Endpoint aus. Mid-Level: verantwortet ein Modell End-to-End, inklusive seiner Evals und Degradationsmodi. Senior: trifft die Build-vs-Buy-Entscheidung, entwirft das Eval-Harness, leitet die Incident-Response, wenn das Modell in der Produktion regrediert.

Core-Stack — was man wirklich lernen sollte

Mathe & ML-Grundlagen

Lineare Algebra (gerade genug, um Paper zu lesen), Wahrscheinlichkeit, Intuition für Gradient Descent, Bias/Variance, Regularisierung, Evaluationsmetriken (Precision/Recall, AUC, Kalibrierung). Sie müssen 2026 Backprop nicht von Hand herleiten, sollten es aber konzeptionell verstehen.

Python auf Produktionsniveau

Typing/Pydantic, pytest, FastAPI fürs Serving, NumPy, pandas, Polars. Async-Grundlagen fürs Serving. Der Notebooks-only ML-Engineer ist ein 2018er-Archetyp.

Klassisches ML

scikit-learn, XGBoost/LightGBM/CatBoost, Feature Engineering, Cross-Validation, Vermeidung von Leakage, Arbeit mit unbalancierten Daten.

Deep Learning

PyTorch (Standard), Lightning, wenn Sie Trainings-Scaffolding wollen, Hugging Face Transformers, Accelerators (CUDA-Grundlagen, Mixed Precision).

LLMs in der Produktion (Essentials 2026)

OpenAI-/Anthropic-/Google-APIs mit Streaming, strukturierte Outputs, Function/Tool Calling, RAG-Architekturen, hybrides Retrieval (BM25 + Vektor), Reranking, Evaluations-Frameworks (Ragas, eigene Evals).

Fine-Tuning & Inferenz

LoRA/QLoRA für Adapter-Fine-Tuning, vLLM oder sGLang für Inferenz, Quantisierung (fp8, int4), Batching, mentales Modell des KV-Cache. Wissen, wann man NICHT fine-tunt (Prompt + RAG reicht meist).

Vektordatenbanken & Retrieval

pgvector, Qdrant, Weaviate, Embeddings-Modelle (OpenAI, Cohere, BGE), Chunking-Strategien, Recall vs. Precision im Retrieval, Eval-Queries.

MLOps

Experiment-Tracking (Weights & Biases oder MLflow), Model Registry, Feature Stores in größeren Unternehmen (Feast), Inferenz-Serving (Triton, KServe, BentoML), Monitoring von Drift und Qualität.

Evaluations-Disziplin

Eval-Datasets aufbauen, LLM-as-Judge mit seinen Vorbehalten, Golden Tests, Regressionstests in CI, Online- vs. Offline-Metriken, A/B-Testing für Modelle.

Frontier 2026

Agentische Workflows, MCP, mehrstufige Tool-Nutzung, Structured Generation (Outlines, Instructor), kleine Modelle (Phi, Qwen) für kostenoptimierte Aufgaben, On-Device-Inferenz.

Soft Skills und Systemdenken

Empfohlener 3-/6-/12-Monats-Plan

Monate 1–3: Grundlagen

Monate 4–6: ein LLM-Projekt

Monate 7–12: Tiefe und Interviews

Üben Sie ML-Interviews ML-System-Design, LLM-Szenarien, Behavioral- und Coding-Runden, abgestimmt auf ML-Engineering-Arbeit.
ML-Mock-Interview ausprobieren

Side-Projects zum Bauen

Evals bauen — die eigentliche Superkraft des Senior ML-Engineers

Den meisten ML-Demos fehlt nur ein Eval, um Produktions-Features zu sein. Der Eval ist das Asset, das ein Modell verbesserbar macht.

In Interviews ist „wir haben ein 200-Beispiele-Eval-Set mit drei Metriken gebaut und es bei jedem PR ausgeführt, was eine 7-Punkte-Regression abfing, als wir Modelle tauschen wollten“ die Art von Antwort, die Senior signalisiert. „Das neue Modell fühlte sich in Stichproben besser an“ ist die Antwort, die das nicht tut.

Wie Sie die ML-Stelle bekommen

FAQ

Brauche ich 2026 einen PhD, um ML-Engineer zu sein?

Nein. Ein PhD ist meist für Research-Engineer-Rollen in Frontier-Labs erforderlich. Die meisten Produkt-ML-Engineering-Hires haben keinen. Ein starkes angewandtes Portfolio schlägt in den meisten Unternehmen einen Abschluss.

Soll ich zuerst LLMs oder klassisches ML lernen?

Zuerst klassisches ML. Drei Monate mit tabellarischen Daten und scikit-learn lehren Sie Datendisziplin, Evaluation und Feature-Denken, das die LLM-Arbeit voraussetzt. Wechseln Sie dann zu LLMs.

Muss ich für den Job Modelle fine-tunen?

Seltener, als Sie denken. Die meisten Produktions-LLM-Features funktionieren mit Prompts + RAG + einem starken Eval-Set. Fine-Tuning taucht in Unternehmen mit domänenspezifischen Aufgaben oder Kostenbeschränkungen auf.

Wie wichtig sind Mathe-Grundlagen?

Genug, um Paper zu lesen und zu verstehen, was Sie nutzen. Sie müssen keine Transformer herleiten. Intuition in linearer Algebra, Wahrscheinlichkeit und Gradient Descent auf Konzeptebene deckt die meisten Interview-Fragen ab.

Wie sieht es mit Agents und MCP aus?

Steigt schnell und taucht 2026 in Interviews auf. Bauen Sie sicherheitshalber ein Agent-Projekt. Verstehen Sie Tool Calling, strukturierte Outputs und den Unterschied zwischen „Agent, der in Demos funktioniert“ und „Agent, der in der Produktion mit Evals funktioniert“.