Дорожная карта навыков ML-инженера на 2026 год
ML-инжиниринг в 2026 году разделён между классическим ML (табличные модели, ранжирование, фрод, прогнозирование) и LLM-инжинирингом (RAG, дообучение, evals, агенты). Большинство новых сотрудников касаются обоих. Эта дорожная карта охватывает стек, soft skills и план на 12 месяцев, чтобы стать ML-инженером, которого нанимают.
За последние два года роль менялась быстрее, чем любая другая инженерная специальность. До 2023 года ML-инженеры были в основном тренерами моделей. В 2026 году большинство ML-инженеров — это системные инженеры, которые попутно деплоят модели: они строят evals, пайплайны, системы извлечения и сервисы инференса больше, чем тренируют базовые модели. Вывод: если вы умеете только тренировать, вы недостаточно готовы к найму 2026 года.
Кто такой ML-инженер в 2026 году
Роль охватывает несколько направлений. Большинство вакансий просят одно-два из:
- Тренировать и деплоить классические ML-модели (ранжирование, рекомендации, прогнозирование, фрод).
- Строить LLM-функции: RAG по данным компании, промпт-инжиниринг, evals, дообучение при необходимости.
- Владеть пайплайном инференса: serving, батчинг, целевые показатели задержки, стоимость.
- Писать production-код — не Jupyter-ноутбуки — с тестами и CI.
- Сотрудничать с продуктом по тому, что строить, с data-инжинирингом по входным данным, с платформой по serving.
Junior ML-инженер: тренирует модель, выкатывает её за эндпоинтом под лёгким надзором. Middle: владеет моделью целиком, включая её evals и режимы деградации. Senior: принимает решение build-vs-buy, проектирует eval-харнес, ведёт incident response, когда модель регрессирует в production.
Базовый стек — что действительно учить
Математика и основы ML
Линейная алгебра (ровно столько, чтобы читать статьи), теория вероятностей, интуиция градиентного спуска, bias/variance, регуляризация, метрики оценки (precision/recall, AUC, калибровка). Выводить backprop вручную в 2026 году не нужно, но понимать его концептуально следует.
Python на production-уровне
typing/Pydantic, pytest, FastAPI для serving, NumPy, pandas, Polars. Основы async для serving. ML-инженер «только ноутбуки» — архетип 2018 года.
Классический ML
scikit-learn, XGBoost/LightGBM/CatBoost, feature engineering, кросс-валидация, избегание утечек, работа с несбалансированными данными.
Глубокое обучение
PyTorch (по умолчанию), Lightning, если нужен каркас для обучения, Hugging Face Transformers, ускорители (основы CUDA, смешанная точность).
LLM в production (необходимое в 2026)
Вызов API OpenAI/Anthropic/Google со стримингом, структурированный вывод, function/tool calling, RAG-архитектуры, гибридное извлечение (BM25 + вектор), реранкинг, фреймворки оценки (Ragas, кастомные evals).
Дообучение и инференс
LoRA/QLoRA для дообучения адаптеров, vLLM или sGLang для инференса, квантизация (fp8, int4), батчинг, ментальная модель KV-кэша. Понимание, когда НЕ дообучать (промпт + RAG обычно достаточно).
Векторные базы данных и извлечение
pgvector, Qdrant, Weaviate, модели эмбеддингов (OpenAI, Cohere, BGE), стратегии чанкинга, recall против precision в извлечении, eval-запросы.
MLOps
Трекинг экспериментов (Weights & Biases или MLflow), реестр моделей, feature stores в крупных компаниях (Feast), serving инференса (Triton, KServe, BentoML), мониторинг дрейфа и качества.
Дисциплина оценки
Построение eval-датасетов, LLM-as-judge с его оговорками, golden-тесты, регрессионные тесты в CI, online- против offline-метрик, A/B-тестирование для моделей.
Фронтир 2026 года
Агентные workflow, MCP, многошаговое использование инструментов, структурированная генерация (Outlines, Instructor), небольшие модели (Phi, Qwen) для задач, оптимизированных по стоимости, инференс на устройстве.
Soft skills и системное мышление
- Evals как привычка. Если вы не можете измерить качество модели, вы не можете её улучшить. Построение eval — половина работы; многие инженеры пропускают её и жалеют.
- Скептицизм к демо. Демо LLM с пятью отобранными вручную примерами — это не система. Senior-рефлекс: «покажите мне 100 примеров и разбивку режимов отказа».
- Мышление о стоимости. Стоимость токенов, стоимость GPU, стоимость задержки. Правильная модель для задачи редко самая большая.
- Сотрудничество с продуктом. Успех ML-функции зависит от того, чтобы измеряемое было тем, чего хотят пользователи. Согласуйте метрику успеха с продуктом до того, как строить.
- Осознание деградации. Модели дрейфуют, базовые модели снимают с поддержки, промпты ломаются при обновлениях у провайдеров. Планируйте это.
Рекомендуемый план на 3 / 6 / 12 месяцев
Месяцы 1–3: основы
- Подтяните Python и математику для ML. Machine Learning Specialization от Andrew Ng или fast.ai для практического трека.
- Постройте два классических ML-проекта на реальных датасетах: классификатор и регрессию. Задокументируйте свою оценку.
- Настройте PyTorch локально. Натренируйте одну небольшую модель с нуля (уровня MNIST), одну дообучите с Hugging Face.
Месяцы 4–6: LLM-проект
- Постройте RAG-систему по своим документам: чанкинг, эмбеддинги, извлечение, реранкинг, генерация.
- Постройте eval-набор (50–100 вопросов с эталонными ответами). Измерьте precision и recall.
- Задеплойте его за FastAPI-эндпоинтом со стримингом. Заставьте работать на реальных пользователях (себе, друге).
- Прочитайте «Designing Machine Learning Systems» (Chip Huyen) или эквивалент.
Месяцы 7–12: глубина и собеседования
- Постройте ещё один более амбициозный проект: агента с использованием инструментов, дообученную доменную модель или мультимодальный пайплайн.
- Прочитайте 3–5 основополагающих статей (Attention Is All You Need, оригинальный RAG, LoRA) и 5–10 недавних в вашей области.
- Практикуйте ML system design: спроектируйте рекомендательную систему, спроектируйте пайплайн модерации, спроектируйте RAG-приложение.
- Откликайтесь с портфолио, в котором есть один задеплоенный LLM-проект и один классический ML-проект с задокументированными evals.
Пет-проекты для портфолио
- RAG-приложение с реальными evals. Публичный датасет, публичный eval-набор, опубликованные цифры. Демонстрирует строгость.
- Проект по дообучению. LoRA на небольшой открытой модели под конкретную задачу. Покажите сравнение базовой и дообученной версий.
- Production-деплой классического ML. Модель ранжирования XGBoost за API с мониторингом. Показывает, что вы умеете выкатывать не-LLM ML.
- Агент, который делает одну полезную вещь. Ассистент календаря, ревьюер кода, исследовательский ассистент. Использование инструментов + структурированный вывод + evals.
Построение evals — настоящая суперсила senior ML-инженера
Большинству ML-демо до production-функции не хватает одного — evals. Eval — это актив, который делает модель улучшаемой.
- Постройте eval-набор до модели. 50–100 репрезентативных примеров с эталонными выходами или оценёнными ответами. Отобранное вручную бьёт синтетическое для первой версии.
- Несколько метрик, не одна. Exact match плюс семантическая близость плюс LLM-as-judge на основе рубрики для нюансов. Одна метрика рано или поздно всегда врёт.
- Разрезайте по сегментам пользователей. «90% точности» может скрывать «30% на power-юзерах». Разрезайте по языку, типу запроса, стажу пользователя.
- Запускайте evals в CI. Каждое изменение промпта, каждое обновление модели триггерит eval-набор. Алерты о регрессиях идут в Slack-канал.
- Связывайте offline с online. Прошедший eval не означает, что пользователь доволен. Сопоставляйте его с online-метриками (лайки, частота уточняющих вопросов, конверсия) и следите за корреляцией.
- Детектирование дрейфа. Распределение входных данных меняется со временем. Eval-набор, построенный полгода назад, больше не покрывает запросы, которые вы видите. Обновляйте ежеквартально.
- Сбор кейсов отказа. Каждый дизлайк или эскалация становится кандидатом в eval-набор. Датасет растёт за счёт сбора ваших худших моментов.
На собеседованиях «мы построили eval-набор из 200 примеров с тремя метриками и запускали его на каждом PR, что поймало регрессию на 7 пунктов, когда мы попытались сменить модели» — это тот ответ, который сигнализирует Senior. «Новая модель ощущалась лучше при выборочных проверках» — ответ, который этого не делает.
Как получить роль ML-инженера
- Ключевые слова в резюме. PyTorch, Hugging Face, LangChain или LlamaIndex (или «построено без фреймворка», если так и было), RAG, оценка, vLLM/sGLang если применимо, ваше облако, ваша векторная БД.
- Один репозиторий с задокументированными evals. Единственный самый сигнальный артефакт для найма в ML в 2026 году.
- Раунды собеседования: coding, широта ML, ML system design, behavioral, иногда take-home. Раунд system design теперь обычно с LLM-уклоном.
- Раунд system design. Практикуйте «спроектируйте поисковую систему», «спроектируйте пайплайн модерации», «спроектируйте RAG для документации поддержки». Включайте стратегию оценки каждый раз.
- Coding-раунд. Часто чистый Python, иногда реализация небольшого алгоритма (k-NN, attention, функция оценки). Подтяните это.
FAQ
Нужен ли PhD, чтобы быть ML-инженером в 2026 году?
Нет. PhD требуется в основном для ролей research-engineer во фронтир-лабах. У большинства продуктовых ML-инженеров его нет. Сильное прикладное портфолио бьёт диплом в большинстве компаний.
Что учить первым — LLM или классический ML?
Сначала классический ML. Три месяца на табличных данных со scikit-learn учат дисциплине работы с данными, оценке и мышлению о признаках, которые работа с LLM предполагает. Потом переходите к LLM.
Нужно ли дообучать модели для работы?
Реже, чем вы думаете. Большинство production LLM-функций работают на промптах + RAG + сильном eval-наборе. Дообучение появляется в компаниях с доменно-специфичными задачами или ограничениями по стоимости.
Насколько важны основы математики?
Достаточно, чтобы читать статьи и понимать, что вы используете. Выводить трансформеры не нужно. Интуиция линейной алгебры, теории вероятностей и градиентного спуска на уровне концепций покрывают большинство вопросов на собеседованиях.
А что насчёт агентов и MCP?
Быстро растут и начинают появляться на собеседованиях 2026 года. Постройте один проект с агентом для надёжности. Понимайте tool calling, структурированный вывод и разницу между «агентом, который работает в демо» и «агентом, который работает в production с evals».