/ Construye ML / Cómo piensa un Data Scientist
Cómo piensa un Data Scientist en el mundo real y por qué la mayoría falla en Machine Learning
Basado en 2 proyectos reales aplicados en industria
Punto de partidaEl problema que nadie te enseña
Si ya has estudiado machine learning, probablemente sabes esto: regresión, clasificación, algunos modelos, tal vez algo de Python.
Saber algoritmos no significa saber hacer machine learning.
En proyectos reales — en industria, negocios o tecnología — el problema nunca llega como: "aplica un modelo de clasificación aquí".
Llega como algo mucho más ambiguo:
- "queremos reducir pérdidas"
- "necesitamos predecir fallas"
- "queremos mejorar ventas"
Y ahí es donde la mayoría falla.
El verdadero reto no es entrenar modelos. El verdadero reto es entender el problema correcto.
En proyectos reales de ML, los errores más costosos no vienen de elegir mal un algoritmo. Vienen de definir mal el problema desde el inicio.
En esta lección, basada en 2 proyectos reales aplicados en industria, te explico cómo piensa un data scientist y cómo puedes empezar a hacerlo tú también.
ContextoProyectos base
Los ejemplos de esta lección se apoyan en dos proyectos reales.
Proyecto 1 — Detectar pérdidas por consumo irregular (fraude / robo de energía)
- Traducción ML: clasificación supervisada (detección de comportamiento sospechoso)
- Target: indicador binario —
0 = normal, 1 = fraude - Métrica: Recall
- Error crítico: falso negativo — no detectar fraude
Proyecto 2 — Evitar fallas en equipos críticos (mantenimiento predictivo)
- Traducción ML: clasificación (fallará / no) o regresión (tiempo hasta falla — TTF)
- Target: probabilidad de falla o tiempo restante
- Métrica: Recall
- Error crítico: falso negativo — no anticipar una falla
FrameworkEl error más común al implementar Machine Learning
Después de asesorar estos proyectos, el error más frecuente es este enfoque:
"Tengo datos → voy a aplicar un modelo"
El problema es que este enfoque está completamente invertido.
El framework correcto es:
¿Qué decisión se quiere tomar?
¿Qué variable predigo?
¿Qué tipo de problema es?
¿Qué métrica importa?
¿Qué errores son aceptables?
Si empiezas por el modelo, ya empezaste mal.
Porque si planteas mal el problema: eliges mal el modelo, optimizas la métrica equivocada y tomas decisiones inútiles — incluso si tu modelo funciona "bien".
ObjetivosQué vas a aprender en esta lección
Al terminar, deberías poder:
- Traducir un problema de negocio a un problema de machine learning
- Identificar correctamente el tipo de problema (clasificación, regresión, etc.)
- Definir la variable objetivo (target)
- Elegir una métrica que tenga sentido en el mundo real
El enfoque es: primero te muestro cómo resolví el primer problema, y luego te dejo el segundo como ejercicio.
Ejercicio GuiadoTraduciendo un problema real a Machine Learning
Problema 1: Empresa de Energía
Contexto: Una empresa de energía enfrenta pérdidas económicas debido a conexiones ilegales o manipulación de medidores. El equipo directivo quiere usar datos para identificar estos casos de forma anticipada, pero aún no existe un planteamiento claro desde ML.
Tu objetivo: tomar un problema ambiguo y convertirlo en algo que se pueda modelar — traducción de negocio a ML, pensamiento estructurado, toma de decisiones y evaluación de impacto.
Paso 1 — ¿Qué decisión se quiere tomar?
La decisión no es "predecir fraude".
La decisión real es: determinar qué casos vale la pena revisar o intervenir primero.
Un data scientist piensa así: el modelo no es el objetivo — el objetivo es tomar una acción.
Se pregunta: si el modelo me da una predicción, ¿qué hago con ella?
- Si un caso es sospechoso → se revisa
- Si no lo es → no se prioriza
Conclusión: la decisión es priorizar qué casos inspeccionar, usando datos para enfocar recursos donde hay mayor probabilidad de problema.
Paso 2 — ¿Qué variable predigo?
Aquí es donde muchos fallan. Alguien podría apresurarse a decir: "el target es el consumo". Eso es incorrecto.
El data scientist se pregunta: ¿qué decisión quiere tomar el negocio?
Respuesta: identificar si un servicio es sospechoso o no.
El target correcto es:
Hurtos (1 = fraude, 0 = normal)
Insight clave: el target no siempre viene en los datos. Se define en función de la decisión de negocio.
Paso 3 — ¿Qué tipo de problema es?
A primera vista alguien diría: "es un problema de clasificación". Pero un data scientist con experiencia no empieza ahí.
Empieza preguntándose: ¿qué está intentando resolver el negocio realmente?
- Hay pérdidas económicas no visibles directamente
- Hay comportamiento irregular que se puede detectar
Es un problema de detección de anomalías / fraude.
Dado que tenemos ejemplos históricos de fraude y ejemplos normales, esto se convierte en clasificación supervisada.
3.1 — ¿Qué modelo usar?
El 90% de los estudiantes empieza con: "voy a usar X modelo". Eso es un error.
Primero se define el contexto:
- Tipo de datos: tabulares
- Tamaño: moderado
- Ruido: alto
- Features: agregadas
La decisión correcta es RandomForestClassifier — no por moda, sino porque los datos son tabulares, hay ruido, hay relaciones no lineales y se necesita interpretabilidad.
Es una decisión basada en contexto, no en teoría.
3.2 — ¿Qué variables (features) usar?
El data scientist no usa columnas "tal cual".
Se pregunta: ¿qué señales indican comportamiento sospechoso? Construye variables como:
- Promedio de consumo
- Variabilidad
- Mínimos y máximos
- Cambios abruptos
- Tendencia
Insight clave: no estamos modelando consumo. Estamos modelando comportamiento.
Paso 4 — ¿Qué métrica usar?
Este es el punto más importante.
Un data scientist piensa: ¿qué error es más costoso?
- No detectar fraude → pérdida económica
- Marcar falso positivo → inspección innecesaria
Se debe priorizar el Recall.
La métrica no se elige por el modelo. Se elige por el impacto en el negocio.
Paso 5 — ¿Qué errores son aceptables?
Esto rara vez se enseña, pero es clave para cualquier proyecto real.
Falso negativo — Crítico
No detectas fraude → pierdes dinero → riesgo operativo. No aceptable.
Falso positivo — Tolerable
Inspección innecesaria → costo menor. Aceptable hasta cierto punto.
"Prefiero equivocarme de más que no detectar fraude."
Este problema no es sobre modelos. Es sobre: entender el negocio, definir bien el problema, construir señales útiles y elegir métricas correctas.
Deep WorkReplanteamiento completo de un problema real
Mantenimiento Predictivo de un Molino SAG
Contexto: Una empresa minera quiere anticipar fallas en equipos críticos para evitar pérdidas operativas. Se cuenta con datos históricos de operación, sensores y fallas previas.
Datos disponibles: mediciones periódicas de desgaste de componentes críticos a lo largo del tiempo, con variaciones en condiciones operativas y cambios progresivos en el estado del sistema.
Importante: no empieces pensando en modelos. Primero entiende qué quieres predecir y qué decisión tomarás.
Pregunta 1 — Problema a nivel negocio
¿Qué se quiere lograr? ¿Qué decisión se quiere tomar con los datos?
Respuesta modelo:
Entender cómo evoluciona el desgaste en el tiempo para anticipar condiciones críticas y tomar decisiones oportunas de mantenimiento o intervención.
Respuesta mala:
"Analizar el desgaste de los datos" — describe datos, no decisiones.
Criterios de evaluación:
- Alto: defines claramente qué decisión se quiere tomar
- Medio: mencionas el objetivo pero sin decisión clara
- Bajo: describes datos en lugar de la decisión a tomar
Pregunta 2 — Tipo de problema
¿Qué estás intentando hacer? Predicción, detección, estimación, segmentación, análisis de comportamiento...
Respuesta modelo:
Predicción / estimación de comportamiento continuo (degradación en el tiempo).
Respuesta mala:
"Es un problema de machine learning" — demasiado genérico, no dice nada.
Criterios de evaluación:
- Alto: describes el tipo correcto más el contexto temporal
- Medio: eliges la categoría correcta pero sin claridad
- Bajo: eliges categoría incorrecta
Pregunta 3 — Problema de Machine Learning
¿Qué estás modelando? ¿Qué quieres predecir o estimar?
Respuesta modelo:
Modelar la evolución del desgaste a lo largo del tiempo para estimar su comportamiento futuro.
Respuesta mala:
"Predecir datos" — ambiguo, sin contexto.
Pregunta 4 — Variable objetivo (target)
¿Cómo se representa en datos? ¿Es una categoría o un valor numérico?
Respuesta modelo:
Una variable numérica que representa el desgaste o tasa de degradación (ej. pérdida de altura o tasa de desgaste por unidad de tiempo).
Respuesta mala:
"El desgaste" — no está definido, no es medible.
Pregunta 5 — Tipo de enfoque
¿Clasificación, regresión, u otro? Justifica tu respuesta.
Respuesta modelo:
Regresión, porque el objetivo es estimar una variable continua (nivel o tasa de desgaste), no una categoría.
Respuesta mala:
"Clasificación" — sin analizar el tipo de variable objetivo.
Pregunta 6 — Métrica
¿Qué métrica usarías y por qué?
Respuesta modelo:
MAE o RMSE, porque interesa medir qué tan lejos están las predicciones del valor real en términos de magnitud.
Respuesta mala:
"Accuracy" — no aplica a este tipo de problema.
Pregunta 7 — Errores críticos
¿Qué error es más grave? ¿Qué consecuencias tendría?
Respuesta modelo:
Subestimar el desgaste, porque puede llevar a decisiones tardías y aumentar el riesgo de fallas no anticipadas.
Respuesta mala:
"Todos los errores son iguales" — desconexión total de la realidad.
Pregunta 8 — Riesgos del problema
Menciona al menos 2–3 riesgos.
Respuesta modelo:
- Datos ruidosos o inconsistentes
- Variabilidad en condiciones operativas
- Errores de medición
- Datos incompletos
Respuesta mala:
"No hay riesgos" — desconexión total de la realidad.
Criterios de evaluación:
- Alto: riesgos realistas y relevantes al contexto
- Medio: riesgos genéricos sin conexión al proyecto
- Bajo: no identifies riesgos
Ejercicio OpcionalTécnica Feynman — Explícalo sin términos técnicos
Explica lo que acabas de hacer
Explica tu solución como si hablaras con alguien sin conocimientos técnicos. Apóyate en estas preguntas:
- ¿Qué está pasando en la empresa?
- ¿Qué quieres predecir?
- ¿Cómo ayuda eso a tomar decisiones?
Regla importante: evita términos técnicos innecesarios, fórmulas y palabras como "modelo" o "algoritmo" sin explicar.
Si puedes explicarlo de forma simple, clara y coherente, realmente lo entendiste.
CierreActive Recall
Recuperación activa — sin ver notas
Pregunta 1 — ¿Cuáles son los 5 pasos que sigue un Data Scientist?
Escríbelos en orden.
Pregunta 2 — ¿Cuál es la diferencia entre un problema de negocio y uno de ML?
Explícalo en una frase clara.
Pregunta 3 — ¿Cómo eliges la métrica adecuada?
Da un criterio concreto.