Data-Engineer Skill-Roadmap für 2026
Data-Engineering ist die Schicht, die rohe Events in zuverlässige Tabellen verwandelt, denen Analysten und ML-Teams vertrauen können. Diese Roadmap deckt den Stack 2026 ab — SQL, Python, Orchestrierung, moderne Warehouses, dbt und Streaming — plus einen 12-Monats-Plan, um vom Einsteiger zu einem Data-Engineer zu werden, der zuverlässige Pipelines ausliefert.
Data-Engineering bedeutete früher „schreibt Spark-Jobs“. 2026 bedeutet es „verantwortet den Weg vom Event zum Dashboard, inklusive des SLA“. Die Fähigkeiten überschneiden sich mehr denn je mit Backend-Engineering — Observability, Testing, On-Call — während die Tools sich spezialisiert haben: dbt für Transformation, Airflow/Dagster/Prefect für Orchestrierung, Snowflake/BigQuery/Databricks für das Warehouse, Kafka/Kinesis für Streams.
Wer ist ein Data-Engineer im Jahr 2026
Ein Data-Engineer baut und betreibt die Pipelines, die Daten bewegen und formen. Konkret:
- Bringt Daten aus Produktdatenbanken, Drittanbieter-APIs und Event-Streams herein.
- Transformiert sie im Warehouse mit dbt-Modellen, die getestet, dokumentiert und lineage-verfolgt sind.
- Hält Freshness-SLAs ein — die „Tagesumsatz“-Tabelle ist bis 9 Uhr korrekt, oder es gibt bis 8:30 Uhr einen Slack-Alert.
- Arbeitet mit Analysten und ML-Engineers als Kunden, nicht nur als Datenquellen.
- Ist ab Mid-Level On-Call für das Warehouse und die Pipelines.
Core-Stack — was man wirklich lernen sollte
SQL — in der Tiefe
Window Functions, CTEs, rekursive Queries, JSON-Handling, Query-Pläne, Partitionierung, Materialized Views. Den Data-Engineer, der kein EXPLAIN lesen kann, gibt es auf Mid-Level nicht.
Python
pandas, Polars (steigt 2026 schnell), PyArrow, SQLAlchemy, requests, Typing/Pydantic für Data Contracts. Async-Grundlagen für Ingest mit hohem Durchsatz.
Warehouses (eines tief kennen)
Snowflake, BigQuery, Databricks (Delta Lake) oder Redshift. Plus ClickHouse für Echtzeit-Analytik, wenn Ihr Stack es nutzt.
Transformationsschicht
dbt-core (weiterhin dominant), SQLMesh als aufstrebende Alternative, Model-Materializations, Tests, Snapshots, Exposures, Lineage-Docs.
Orchestrierung
Airflow (die meisten Jobs laufen weiterhin darauf), Dagster (im Aufwind), Prefect oder Warehouse-nativ (Snowflake Tasks, dbt-Cloud-Jobs).
Ingest & Integration
Fivetran/Airbyte für SaaS-Quellen, Debezium für CDC aus Datenbanken, eigenes Python für maßgeschneiderte APIs. JSON-, Parquet-, Avro-Formate.
Streaming
Kafka- oder Kinesis-Grundlagen, Flink oder Spark Streaming für die Verarbeitung, Materialized Views in ClickHouse oder RisingWave für Echtzeit-Aggregationen.
Datenmodellierung
Star-Schemata im Kimball-Stil, dimensionale Modellierung, Slowly Changing Dimensions (SCD2), Event-/Fact-Modellierung, wann man denormalisiert.
Observability & Qualität
dbt-Tests, Great Expectations oder Soda, Freshness-Monitore, Lineage-Tooling (dbt docs, OpenLineage), Incident-Playbooks für fehlgeschlagene Pipelines.
Data-Engineering 2026
Iceberg/Delta Lake als Tabellenformate, Query-Engines (DuckDB, Trino), Vektor-Embeddings neben Warehouse-Daten gespeichert, Pipelines, die RAG/Agents speisen.
Soft Skills und Systemdenken
- Kundendenken. Ihre „Nutzer“ sind Analysten und ML-Engineers. Der richtige Spaltenname und die richtige Granularität zählen mehr als cleveres SQL.
- Vertragsdisziplin. Eine Breaking Change am Tabellenschema bricht Dashboards. Versionieren Sie Spalten, deprecaten Sie langsam, kommunizieren Sie breit.
- Backfill-Denken. Jede Transformation braucht eine Antwort auf „Was, wenn ich die letzten 90 Tage neu laufen lassen muss?“ Wenn Sie es nicht können, werden Sie es binnen sechs Monaten bereuen.
- Kostenbewusstsein. Warehouses rechnen nach Compute ab. Ein Senior Data-Engineer reduziert eine 40.000-$-/Jahr-Query, ohne dass jemand danach fragt.
- Datenqualität als Code. Tests in dbt, Schema-Verträge, Freshness-Monitore. „Die Pipeline läuft“ ist nicht dasselbe wie „die Daten sind korrekt“.
Empfohlener 3-/6-/12-Monats-Plan
Monate 1–3: SQL + Python + ein Warehouse
- Meistern Sie SQL mit realistischen Daten. Das öffentliche StackOverflow-Dataset auf BigQuery ist kostenlos und gehaltvoll.
- Lernen Sie Python für Daten: pandas, requests, Arbeit mit Dateien und APIs.
- Melden Sie sich für die Free-Tier von Snowflake oder BigQuery an. Laden Sie ein Dataset, queryen Sie es, bauen Sie ein kleines Dashboard.
Monate 4–6: eine echte Pipeline
- Bauen Sie ein End-to-End-Projekt: Ingest aus einer API oder einem öffentlichen Dataset, Transformation in dbt, Orchestrierung mit Airflow oder Dagster, Dokumentation mit dbt docs.
- Fügen Sie Tests hinzu. dbts eingebaute Tests plus 5–10 eigene.
- Deployen Sie die Orchestrierung irgendwo Erreichbares (Astro, MWAA oder Self-Hosting auf einer kleinen VM).
Monate 7–12: Tiefe, Streaming, Interviews
- Lesen Sie „The Data Warehouse Toolkit“ (weiterhin relevant) und eine moderne Ressource zur Lakehouse-Architektur.
- Fügen Sie eine Streaming-Komponente hinzu: Kafka oder Kinesis, mit einem Flink- oder Spark-Streaming-Consumer, materialisiert in Ihrem Warehouse.
- Üben Sie Data-Engineering-Interview-Fragen: SQL-Puzzles, eine Pipeline für einen Use Case entwerfen, einen kaputten DAG debuggen.
- Bewerben Sie sich mit einem Portfolio, das eine ausgelieferte Pipeline plus deren dbt docs zeigt.
Side-Projects zum Bauen
- Eine tägliche News-Scraper-zu-Warehouse-Pipeline. RSS- oder API-Quelle, Python-Ingest, dbt-Modelle, Dashboard. Zeigt den gesamten Kreislauf.
- Eine CDC-Pipeline. Postgres-Quelle, Debezium, Kafka, Sink ins Warehouse. Zeigt Streaming + Korrektheit.
- Ein dbt-Projekt mit über 30 Modellen und voller Testabdeckung. Öffentliches Repo mit Docs und Lineage-Screenshots. Die meisten Interviewer schauen sich das direkt an.
- Ein LLM-erweitertes Datenprojekt. Klassifizieren Sie Text in Ihrem Warehouse mit einem LLM, speichern Sie Ergebnisse, bewerten Sie die Genauigkeit. Das Hiring 2026 liebt diese Überschneidung.
Pipeline-Zuverlässigkeit — was Mid-Level-Data-Engineers auf die harte Tour lernen
Der technische Stack ist der einfache Teil. Die ungeschriebene Fähigkeit des Data-Engineering ist Zuverlässigkeit: Pipelines, die nicht stillschweigend lügen.
- Idempotenz von Tag eins an. Das erneute Ausführen der gestrigen Pipeline sollte dieselben Zahlen erzeugen, keine Duplikate. Nutzen Sie Natural Keys, MERGE oder Insert Overwrite nach Partition.
- Schema-Verträge mit Quellen. Produkt-Engineers benennen ohne Vorwarnung eine Spalte um. Nutzen Sie dbt Source Freshness, Schema-Tests und einen Slack-Alert, wenn eine Spalte verschwindet.
- Backfills als First-Class-Operationen. Wenn Sie einen 30-Tage-Bug entdecken, müssen Sie 30 Tage an Pipelines neu laufen lassen, ohne die Warehouse-Rechnung zu sprengen. Parametrisieren Sie Datumsbereiche; entwerfen Sie für Replay.
- „Verspätet“ von „fehlend“ unterscheiden. Eine Tagesabelle, die um 9 Uhr leer ist, ist ein Alert. Eine Tagesabelle bei 95 % des normalen Volumens ist ein größerer Alert — jemandes Daten sind weg, nur nicht laut.
- Kosten pro Query. Ein Senior Data-Engineer kennt die zehn teuersten Queries in seinem Warehouse und einen Plan für jede. Snowflakes ACCOUNT_USAGE, BigQuerys INFORMATION_SCHEMA, dbts run_results — lernen Sie, sie zu lesen.
- Lineage als Dokumentation. Wenn eine Zahl falsch ist, lautet die Frage „welches Modell hat sie erzeugt und was floss hinein?“ dbt docs, OpenLineage oder ein Lineage-Tool wie Atlan beantwortet das in Sekunden statt Stunden.
- Postmortems bei Daten-Incidents. Eine falsche Zahl auf einem Dashboard ist ein Incident. Behandeln Sie ihn so: Zeitleiste, Root Cause, Fix, systemische Änderung.
Der Data-Engineer, der Zuverlässigkeit als Feature und nicht als Last behandelt, ist der, der befördert wird.
Wie Sie die Data-Engineering-Stelle bekommen
- Lebenslauf-Keywords. SQL, Python, dbt, Airflow oder Dagster, Ihr Warehouse, Kafka falls relevant, Datenmodellierung, AWS oder GCP.
- Ein öffentliches dbt-Projekt. Aus dem Lebenslauf verlinkt. Hiring-Manager klicken darauf.
- Interview-Runden: SQL (live, 30–60 Min.), Pipeline-Design, Behavioral, manchmal eine Take-home-dbt-Aufgabe. Üben Sie alle vier.
- Die SQL-Runde. Window Functions, Deduplizierung, Sessionization, kumulative Metriken. Üben Sie an echten Datasets.
- Pipeline-Design. Gehen Sie Anforderungen, Quellen, Transformationen, Freshness-SLA, Fehlerszenarien und Monitoring durch. Jedes Mal dieselbe Struktur.
FAQ
Data-Engineer vs. Analytics-Engineer vs. ML-Engineer?
Der Data-Engineer verantwortet die Pipelines und die Warehouse-Infrastruktur. Der Analytics-Engineer fokussiert sich auf die dbt-Schicht und die Business-Logik. Der ML-Engineer nimmt Warehouse-Daten in Modelle. Die Grenzen verschwimmen, besonders in kleineren Unternehmen.
Brauche ich 2026 Spark?
Weniger als früher. Viele Teams laufen heute auf Snowflake/BigQuery + dbt ganz ohne Spark. Spark wird weiterhin in Unternehmen mit riesigem Volumen oder in Databricks-Shops benötigt. Lernen Sie die Konzepte; nutzen Sie es nur, wenn Ihr Job es erfordert.
Ist dbt weiterhin dominant?
Ja, aber SQLMesh ist 2026 die glaubwürdige Alternative. dbt zu kennen ist die sicherere Wette für den Arbeitsmarkt; beides zu kennen ist ein Wettbewerbsvorteil.
Wie viel Streaming brauche ich?
Lesekompetenz in Kafka und einem Stream-Processor für die meisten Rollen. Operator-Level nur, wenn die Stellenanzeige Streaming ausdrücklich als Kernverantwortung nennt.
Wie sieht es mit dem Fokus Python vs. SQL aus?
SQL ist der größere Anteil der täglichen Arbeit. Python ist der Kleber für Orchestrierung und Ingest. Beides ab Mid-Level erforderlich. Reines SQL ohne Python deckelt Sie auf Analytics-Engineer.