SRE Mock Interview — mit AI üben

SRE-Interviews sind der Loop, in dem DevOps-Tiefe auf Software-Engineering-Strenge trifft — und die Kandidaten, die Angebote bekommen, sind die, die von einer fünfminütigen Outage-Triage zu einem dreißigminütigen SLO-Design-Gespräch wechseln können, ohne das Publikum zu verlieren. Die meisten Kandidaten verlieren Angebote nicht an Linux-Trivia, sondern in dem Moment, in dem sie gefragt werden „wie hoch ist dein Error Budget für dieses Quartal und wie bist du darauf gekommen“. Dieser Leitfaden zeigt, wie Sie AI-Mock-Interviews nutzen, um speziell den SRE-Loop einzuüben.

Starten Sie jetzt ein SRE-Mock-Interview

Wählen Sie Ihren Stack, Ihr Level, und bekommen Sie in 30 Minuten eine realistische Runde. Kostenlos testen.

SRE-Mock starten

Typische Interview-Runden für SREs

Der SRE-Loop ist der längste in der Infra — typischerweise 5–6 Runden. Recruiter-Screen; ein Grundlagen-Telefon-Screening (Linux-Internals, Networking, Distributed-Systems-Grundlagen); ein Coding-Interview (Python oder Go, meist Logs parsen oder ein kleines CLI bauen, manchmal mit wenig Datenstrukturen); eine Incident-Response- oder Troubleshooting-Runde („die Production ist down — leite den Call“); eine System-Design-Runde („entwirf einen globalen Load Balancer mit 99,99 % Verfügbarkeit“); und eine Behavioral-Runde mit dem Hiring Manager. Senior- und Staff-Loops fügen eine SLO-/Reliability-Strategie-Runde hinzu, in der Sie Tradeoffs auf Org-Ebene argumentieren.

Die Incident-Response-Runde und die Reliability-Strategie-Runde sind dort, wo sich AI-Mocks massiv auszahlen. Beide sind offene Gespräche unter Zeitdruck, beide belohnen strukturiertes Denken, beide bestrafen generische Antworten. Das AI-Mock reproduziert das Format einer sich entfaltenden Outage fast exakt: eine vage Aufgabenstellung, eskalierende Rückfragen, Bewertung danach, wie Sie den Suchraum eingrenzen. Auch die System-Design-Runde passt gut — SRE-Design hat seinen eigenen Geschmack (Verfügbarkeit, Blast Radius, Dependency Graphs), den das Mock gezielt ansteuern kann.

Wichtigste technische Themen

SLOs und Error Budgets

Das Vokabular aus dem Google-SRE-Buch ist Pflicht. Seien Sie bereit: SLI vs. SLO vs. SLA, das Auswählen von SLIs, die Kunden wirklich interessieren (Request Success Rate, Latenz p99, Freshness — nicht CPU-Auslastung), Error-Budget-Mathematik (ein monatliches 99,9-%-SLO gibt Ihnen 43 Minuten Budget), Error-Budget-Policy (was Sie tun, wenn Sie es überschreiten — Releases einfrieren, Features depriorisieren, verpflichtender Postmortem). Eine beliebte Frage: „das Team hat 99,95 % Verfügbarkeit, aber Kunden beschweren sich — was ist falsch?“ Starke Antworten hinterfragen die SLI-Definition, das Aggregationsfenster und das Erlebnis pro Kunde.

Incident Response

Das Mock simuliert das direkt. Seien Sie bereit für den strukturierten Triage-Rhythmus: zuerst den Blast Radius einschätzen (wer ist betroffen, wie viele), dann stabilisieren (Rollback, Traffic Shed, Capacity Scaling), dann diagnostizieren (Logs, Traces, jüngste Änderungen) und erst dann einen langfristigen Fix angehen. Die IC-Rolle (Incident Commander) ist eine separate Fähigkeit — seien Sie bereit, darüber zu sprechen, wie Sie koordinieren, wenn drei Leute gleichzeitig tippen. Postmortem-Kultur: blameless, Action Items mit Verantwortlichen und der Unterschied zwischen Root Cause und Contributing Factors.

Linux- und OS-Internals

Seien Sie bereit: Process-Modell, Signals, File Descriptors, der OOM Killer und wie man vorhersagt, was er sich aussucht, cgroups und Namespaces, /proc und /sys für Live-Introspektion, Syscalls und strace, eBPF für Production Tracing ohne Service-Neustart, und Linux-Networking (iptables, conntrack, netfilter). Eine beliebte Frage: „die Load Average ist 200, aber die CPU liegt bei 30 %. Was ist falsch?“ Starke Antworten trennen runnable von sleeping Prozessen und zeigen auf IO Wait, Lock Contention oder Threads.

Networking

Senior-SRE-Loops bohren tief. Seien Sie bereit: TCP-Handshake, Slow Start und Congestion Control, der Unterschied zwischen Latenz und Durchsatz in einem einzigen Gespräch, DNS (und warum DNS die Hälfte der weltweiten Outages ist), TLS-Handshakes und OCSP Stapling, BGP-Grundlagen für globale Infra, Anycast vs. Unicast Routing, Load-Balancer-Typen (L4 vs. L7, Hardware vs. Software, Sticky vs. Round-Robin). Ein beliebtes Szenario: „die Latenz von EU nach US-East hat sich um 3 Uhr nachts verdoppelt, kein Deploy. Führe mich durch.“

Distributed Systems

SRE-Design-Runden lieben diese. Seien Sie bereit: CAP und PACELC, Konsistenzmodelle (strong, eventual, causal, read-your-writes), Consensus (Raft, Paxos-Skizze), Leader Election, Sharding-Strategien und Rebalancing, Replikations-Topologien (sync vs. async, Multi-Leader-Risiken), Distributed Transactions (Saga, Two-Phase Commit und warum niemand es einsetzt), Idempotency Tokens und Queue-Semantik (at-most-once vs. at-least-once vs. exactly-once und was exactly-once in der Praxis tatsächlich bedeutet).

Observability-Stack

Prometheus, Grafana, Loki, Tempo oder Jaeger, OpenTelemetry. Seien Sie bereit: Metrik-Kardinalität und was sie kostet, Alerting auf Symptome vs. Ursachen, was ein gutes Runbook ausmacht, Log Sampling bei Skalierung (und warum Ihre Log-Rechnung der zweitgrößte Infra-Kostenpunkt ist), Trace-Sampling-Strategien (head-based vs. tail-based) und wie man Dashboards für einen On-Call entwirft, der 30 Sekunden hat, bevor er eine Entscheidung treffen muss.

Trainieren Sie die Themen, die wirklich über Ihr Angebot entscheiden

Realistische AI-Fragen, bewertetes Feedback, auf Ihr Level kalibriert.

Kostenlose Session starten

Häufige Szenario-Fragen

„Die Production ist down. Der letzte Deploy war vor 4 Stunden. Leite den Incident Call.“ (Triage-Rhythmus, Rollback-Frage, Comms, IC-Haltung.)
„Setze ein SLO für eine Payment-API. Verteidige deine Zahl gegenüber einem CFO, der 100 % will.“ (Kosten der Neunen, Error-Budget-Konzept, vom Kunden wahrgenommene Verfügbarkeit.)
„Entwirf einen globalen Load Balancer mit 99,99 % Verfügbarkeit.“ (DNS-Routing, Anycast, Health Checks, regionales Failover, Blast Radius.)
„Die Hälfte der Requests an einen Microservice ist langsam, aber nur um 4 Uhr UTC. Untersuche.“ (Cron Jobs, GC, Log Rotation, Backup-Fenster, Retention Sweeps.)
„Du hast das Quartals-Error-Budget überschritten. Der PM will nächste Woche ein großes Feature ausliefern. Was sagst du?“ (Budget-Policy, Freeze, Verhandlung, Eskalationspfad.)

Behavioral-Schwerpunkte — worauf Hiring Manager achten

SRE-Hiring-Manager prüfen auf drei konkrete Eigenschaften. Erstens: Ruhe unter Beschuss — können Sie eine gleichmäßige Stimme behalten, wenn die Lage hässlich wird? Das Mock simuliert kein Cortisol, aber es testet, ob Ihr strukturiertes Denken hält, wenn die Aufgabenstellung mehrdeutig wird. Zweitens: Blameless-Kultur — jede Postmortem-Geschichte sollte sich auf systemische Ursachen konzentrieren (uns fehlte der Alert, das Runbook war veraltet, das Deploy-Tool ließ das durch) und nicht auf die Person, die den Knopf gedrückt hat. Drittens: geschäftliches Urteilsvermögen über Reliability — Staff- und Principal-SREs streiten mit PMs und Execs darüber, wie viel Reliability wert ist. Starke Geschichten zeigen, wie Sie diesen Fall mit Zahlen gemacht haben, nicht mit Bauchgefühl. Erwarten Sie Fragen nach einer denkwürdigen Outage, einem Mal, als Sie ein SLO überschritten haben, einem Mal, als Sie aus Reliability-Gründen Nein zu einem Feature gesagt haben.

Wie Sie AI-Mock-Übungen für diese Rolle nutzen

Stellen Sie die Interview-Art je nachdem, was Sie trainieren, auf „Tech Screening“ oder „Scenario“. Für SLO- und Reliability-Strategie-Übung fügen Sie die aktuelle Situation Ihres Teams als Kontext ein und lassen die AI den skeptischen CFO oder PM spielen. Für Incident Response wechseln Sie in den „Scenario“-Modus und lassen die AI 15–20 Minuten lang eine sich entfaltende Outage treiben. Das Mock bewertet, wie Sie den Suchraum eingrenzen, nicht, ob Sie die „richtige“ Root Cause finden.

Für System Design führen Sie „System Design“ mit SRE-spezifischen Aufgaben durch: entwirf einen globalen Rate Limiter, entwirf ein Multi-Region-Database-Failover, entwirf eine Control Plane, die sich nicht selbst lahmlegt. Die AI bohrt bei Verfügbarkeit und Blast Radius nach, so wie es ein SRE-Interviewer tut — nicht bei der nutzerseitigen UX.

Ein Drill, der sich schnell auszahlt: Führen Sie fünf aufeinanderfolgende Incident-Szenarien in verschiedenen Domänen durch (Payment, Streaming-Video, interne API, ML-Inference, File Storage). Das Mustererkennen für „ist das ein Deploy, eine Dependency, ein Datenproblem oder Capacity“ ist die am besten übertragbare SRE-Interview-Fähigkeit.

Häufig gestellte Fragen

Wie unterscheidet sich SRE in Interviews von DevOps?

SRE-Interviews gehen tiefer in die Reliability-Theorie (SLOs, Error Budgets, Incident Response, Konsistenz in Distributed Systems) und verlangen mehr Software-Engineering-Strenge (eine echte Coding-Runde, manchmal mit etwas Algorithmen). DevOps-Interviews gehen breiter in die Toolchains (CI/CD, IaC, Observability-Tooling) und leichter in die Systemtheorie. Derselbe Kandidat kann beides, aber der Schwerpunkt der Vorbereitung ist anders.

Beinhalten SRE-Interviews Algorithmen-Fragen?

Manche schon — insbesondere Google und Ex-Google-SRE-Teams. Die Messlatte ist meist niedriger als bei einem SWE-Loop (keine harten Graph-Probleme), aber erwarten Sie eine saubere Coding-Runde in Python oder Go, die Datenstrukturen berührt. Trainieren Sie die Grundlagen auf LeetCode. Das Mock ersetzt keine Algorithmen-Übung, aber es übt die verbale Erklärung Ihres Ansatzes ein.

Wie wichtig ist Kubernetes für SRE?

Wichtig, aber nicht dominant. Die Tiefe hängt vom Unternehmen ab. Platform-SRE-Rollen bei K8s-first-Unternehmen erwarten Sicherheit bei Operators, Custom Controllers und Admission Webhooks. Application-SRE-Rollen erwarten Troubleshooting-Tiefe (warum ist dieser Pod im CrashLoopBackOff), aber keine Architektur-Tiefe.

Wie lange sollte ein SRE-Mock-Interview dauern?

Incident-Szenarien laufen 20–30 Minuten. SLO-/Strategie-Runden laufen 30–45 Minuten. System-Design-Runden laufen 45–60 Minuten. Planen Sie eine 60-minütige Screening-Simulation, wenn Sie die volle Runde einüben. Komprimieren Sie Incident-Szenarien nicht unter 15 — das sich entfaltende Tempo ist Teil dessen, was sie realistisch macht.

Was, wenn ich DevOps Engineer bin und in SRE wechseln will?

Trainieren Sie die Teile, die DevOps unterindexiert: SLOs und Error Budgets, die Mathematik der Neunen, formale Incident Response mit IC-Rollen, Konsistenzmodelle in Distributed Systems und Linux-Internals (besonders eBPF und Performance Tracing). Nutzen Sie das Mock, um speziell das SLO-Verteidigungs-Gespräch einzuüben — dort straucheln ehemalige DevOps Engineers am häufigsten.

Ihre Angebotsquote steigt mit jeder Wiederholung

Trainieren Sie SRE-Fragen, bis die Antworten ohne Nachdenken kommen. Kostenlos testen.

Mit dem Üben beginnen