Roadmap de habilidades de ML engineer para 2026
La ingeniería de ML en 2026 está dividida entre el ML clásico (modelos tabulares, ranking, fraude, forecasting) y la ingeniería de LLM (RAG, fine-tuning, evals, agentes). La mayoría de los nuevos contratados tocan ambos. Este roadmap cubre el stack, las soft skills y el plan de 12 meses para convertirse en un ML engineer contratable.
El rol ha cambiado más rápido que cualquier otra especialidad de ingeniería en los últimos dos años. Antes de 2023, los ML engineers eran sobre todo entrenadores de modelos. En 2026 la mayoría de los ML engineers son ingenieros de sistemas que casualmente despliegan modelos — construyen evals, pipelines, sistemas de retrieval y servicios de inferencia más de lo que entrenan modelos base. La implicación: si solo sabe entrenar, está poco preparado para la contratación de 2026.
Quién es un ML engineer en 2026
El rol abarca varios sabores. La mayoría de las ofertas piden uno o dos de:
- Entrenar y desplegar modelos de ML clásico (ranking, recomendaciones, forecasting, fraude).
- Construir funcionalidades de LLM: RAG sobre datos de la empresa, prompt engineering, evals, fine-tuning cuando hace falta.
- Ser dueño del pipeline de inferencia: serving, batching, objetivos de latencia, coste.
- Escribir código de producción — no notebooks de Jupyter — con tests y CI.
- Colaborar con producto sobre qué construir, con ingeniería de datos sobre los inputs, con plataforma sobre el serving.
ML engineer junior: entrena un modelo, lo entrega detrás de un endpoint con supervisión ligera. Nivel mid: es dueño de un modelo de principio a fin, incluidos sus evals y modos de degradación. Senior: toma la decisión de build-vs-buy, diseña el eval harness, lidera la respuesta a incidentes cuando el modelo se degrada en producción.
Stack base — qué aprender de verdad
Matemáticas y fundamentos de ML
Álgebra lineal (lo justo para leer papers), probabilidad, intuición del descenso de gradiente, sesgo/varianza, regularización, métricas de evaluación (precision/recall, AUC, calibración). No necesita derivar backprop a mano en 2026, pero sí entenderlo conceptualmente.
Python a nivel de producción
typing/Pydantic, pytest, FastAPI para serving, NumPy, pandas, Polars. Fundamentos de async para serving. El ML engineer de solo notebooks es un arquetipo de 2018.
ML clásico
scikit-learn, XGBoost/LightGBM/CatBoost, feature engineering, cross-validation, evitar leakage, trabajar con datos desbalanceados.
Deep learning
PyTorch (por defecto), Lightning si quiere andamiaje de entrenamiento, Hugging Face Transformers, aceleradores (fundamentos de CUDA, mixed precision).
LLMs en producción (esenciales de 2026)
Llamar a las APIs de OpenAI/Anthropic/Google con streaming, salidas estructuradas, function/tool calling, arquitecturas RAG, retrieval híbrido (BM25 + vector), reranking, frameworks de evaluación (Ragas, evals personalizados).
Fine-tuning e inferencia
LoRA/QLoRA para fine-tuning de adaptadores, vLLM o sGLang para inferencia, cuantización (fp8, int4), batching, modelo mental del KV cache. Saber cuándo NO hacer fine-tuning (prompt + RAG suele ser suficiente).
Bases de datos vectoriales y retrieval
pgvector, Qdrant, Weaviate, modelos de embeddings (OpenAI, Cohere, BGE), estrategias de chunking, recall vs precision en el retrieval, eval queries.
MLOps
Experiment tracking (Weights & Biases o MLflow), model registry, feature stores en empresas más grandes (Feast), serving de inferencia (Triton, KServe, BentoML), monitorización de drift y calidad.
Disciplina de evaluación
Construir datasets de eval, LLM-as-judge con sus salvedades, golden tests, tests de regresión en CI, métricas online vs offline, A/B testing para modelos.
Frontera de 2026
Workflows agénticos, MCP, uso de herramientas multi-paso, generación estructurada (Outlines, Instructor), modelos pequeños (Phi, Qwen) para tareas optimizadas en coste, inferencia on-device.
Soft skills y pensamiento de sistemas
- Los evals como hábito. Si no puede medir la calidad del modelo, no puede mejorarla. Construir el eval es la mitad del trabajo; muchos ingenieros lo saltan y lo lamentan.
- Escepticismo hacia las demos. Una demo de LLM con cinco ejemplos escogidos a mano no es un sistema. El reflejo senior es «muéstrame 100 ejemplos y el desglose de los modos de fallo».
- Pensamiento en costes. Coste de tokens, coste de GPU, coste de latencia. El modelo adecuado para una tarea rara vez es el más grande.
- Colaboración con producto. El éxito de una funcionalidad de ML depende de que lo que mide sea lo que los usuarios quieren. Empareje con producto para definir la métrica de éxito antes de construir.
- Conciencia de la degradación. Los modelos derivan (drift), los modelos base dejan de tener soporte, los prompts se rompen cuando los proveedores actualizan. Anticípese a ello.
Plan sugerido de 3 / 6 / 12 meses
Meses 1–3: fundamentos
- Repase Python y las matemáticas de ML. La Machine Learning Specialization de Andrew Ng o fast.ai para la ruta práctica.
- Construya dos proyectos de ML clásico con datasets reales: un clasificador y una regresión. Documente su evaluación.
- Configure PyTorch en local. Entrene un modelo pequeño desde cero (nivel MNIST), uno con fine-tune con Hugging Face.
Meses 4–6: un proyecto de LLM
- Construya un sistema RAG sobre sus propios documentos: chunking, embeddings, retrieval, reranking, generación.
- Construya un set de eval (50–100 preguntas con respuestas de referencia). Mida precision y recall.
- Despliéguelo detrás de un endpoint de FastAPI con streaming. Hágalo funcionar con usuarios reales (usted, un amigo).
- Lea «Designing Machine Learning Systems» (Chip Huyen) o equivalente.
Meses 7–12: profundidad y entrevistas
- Construya un proyecto más ambicioso: un agente con uso de herramientas, un modelo de dominio con fine-tune o un pipeline multimodal.
- Lea 3–5 papers fundacionales (Attention Is All You Need, el RAG original, LoRA) y 5–10 recientes de su área.
- Practique ML system design: diseñe un sistema de recomendación, diseñe un pipeline de moderación, diseñe una app de RAG.
- Postule con un portafolio que incluya un proyecto de LLM desplegado y un proyecto de ML clásico con evals documentados.
Proyectos personales para construir
- Una app de RAG con evals reales. Dataset público, set de eval público, números publicados. Demuestra rigor.
- Un proyecto de fine-tuning. LoRA sobre un modelo abierto pequeño para una tarea concreta. Muestre la comparación base vs con fine-tune.
- Un deploy de ML clásico en producción. Modelo de ranking XGBoost detrás de una API con monitorización. Muestra que puede entregar ML que no es LLM.
- Un agente que haga una cosa útil. Asistente de calendario, revisor de código, asistente de investigación. Uso de herramientas + salidas estructuradas + evals.
Construir evals — el verdadero superpoder del ML engineer senior
La mayoría de las demos de ML están a un eval de distancia de ser funcionalidades de producción. El eval es el activo que hace mejorable un modelo.
- Construya el set de eval antes que el modelo. 50–100 ejemplos representativos con outputs de referencia o respuestas graduadas. Curado a mano supera a sintético para la primera versión.
- Múltiples métricas, no una. Exact match más similitud semántica más un LLM-as-judge basado en rúbrica para los matices. Una sola métrica siempre acaba mintiendo.
- Segmente por grupo de usuarios. «90 % de precisión» puede ocultar «30 % en power users». Segmente por idioma, por tipo de consulta, por antigüedad del usuario.
- Ejecute los evals en CI. Cada cambio de prompt, cada upgrade de modelo dispara el set de eval. Las alertas de regresión van a un canal de Slack.
- Conecte offline con online. Un eval que pasa no significa que el usuario esté contento. Empárejelo con métricas online (pulgar arriba, tasa de pregunta de seguimiento, conversión) y observe la correlación.
- Detección de drift. La distribución de los inputs cambia con el tiempo. El set de eval que construyó hace seis meses ya no cubre las consultas que ve. Refrésquelo cada trimestre.
- Minería de casos de fallo. Cada pulgar abajo o escalado se convierte en candidato para el set de eval. El dataset crece recopilando sus peores momentos.
En entrevistas, «construimos un set de eval de 200 ejemplos con tres métricas y lo ejecutamos en cada PR, lo que detectó una regresión de 7 puntos cuando intentamos cambiar de modelo» es el tipo de respuesta que señala senior. «El nuevo modelo se sentía mejor en spot checks» es la respuesta que no lo hace.
Cómo conseguir el puesto de ML
- Keywords de currículum. PyTorch, Hugging Face, LangChain o LlamaIndex (o «construido sin framework» si fue así), RAG, evaluación, vLLM/sGLang si aplica, su nube, su base de datos vectorial.
- Un repo con evals documentados. El artefacto de mayor señal para la contratación de ML en 2026.
- Rondas de entrevista: coding, amplitud de ML, ML system design, comportamiento, a veces un take-home. La ronda de system design ahora suele tener sabor a LLM.
- La ronda de system design. Practique «diseña un sistema de búsqueda», «diseña un pipeline de moderación», «diseña un RAG para docs de soporte». Incluya estrategia de evaluación cada vez.
- Ronda de coding. A menudo Python puro, a veces implementar un algoritmo pequeño (k-NN, attention, función de evaluación). Repáselo.
FAQ
¿Necesito un doctorado para ser ML engineer en 2026?
No. El doctorado se exige sobre todo para puestos de research-engineer en labs de frontera. La mayoría de las contrataciones de ingeniería de ML de producto no lo tienen. Un portafolio aplicado fuerte supera a un título en la mayoría de las empresas.
¿Debería aprender LLMs o ML clásico primero?
ML clásico primero. Tres meses con datos tabulares y scikit-learn le enseñan disciplina de datos, evaluación y pensamiento en features que el trabajo con LLM da por supuestos. Luego pase a los LLMs.
¿Necesito hacer fine-tuning de modelos para el empleo?
Con menos frecuencia de la que cree. La mayoría de las funcionalidades de LLM en producción funcionan con prompts + RAG + un set de eval fuerte. El fine-tuning aparece en empresas con tareas específicas de dominio o restricciones de coste.
¿Qué importancia tienen los fundamentos de matemáticas?
Lo justo para leer papers y entender lo que usa. No necesita derivar transformers. La intuición de álgebra lineal, probabilidad y descenso de gradiente a nivel conceptual cubre la mayoría de las preguntas de entrevista.
¿Y los agentes y MCP?
En rápido ascenso y empezando a aparecer en las entrevistas de 2026. Construya un proyecto de agente para ir sobre seguro. Entienda el tool calling, las salidas estructuradas y la diferencia entre «agente que funciona en demos» y «agente que funciona en producción con evals».