¿Cuál es el error más común al implementar Machine Learning?

El error más común es empezar con los datos y aplicar un modelo sin antes definir qué decisión se quiere tomar. El framework correcto es: definir la decisión, identificar la variable a predecir, elegir el tipo de problema, seleccionar la métrica correcta y determinar qué errores son aceptables.

¿Cómo traduce un Data Scientist un problema de negocio a Machine Learning?

Un Data Scientist empieza por entender qué decisión quiere tomar el negocio, luego define la variable objetivo (target), identifica el tipo de problema (clasificación o regresión), elige la métrica según el impacto real del error, y determina qué tipo de equivocación es tolerable y cuál no.

¿Cómo elegir la métrica correcta en un proyecto de Machine Learning?

La métrica no se elige por el modelo sino por el impacto en el negocio. Si el falso negativo es crítico (no detectar un fraude, no anticipar una falla), la métrica principal debe ser Recall. Si el falso positivo tiene mayor costo, se prioriza Precision.

Cómo Piensa un Data Scientist en el Mundo Real

Punto de partidaEl problema que nadie te enseña

Si ya has estudiado machine learning, probablemente sabes esto: regresión, clasificación, algunos modelos, tal vez algo de Python.

Saber algoritmos no significa saber hacer machine learning.

En proyectos reales — en industria, negocios o tecnología — el problema nunca llega como: "aplica un modelo de clasificación aquí".

Llega como algo mucho más ambiguo:

"queremos reducir pérdidas"
"necesitamos predecir fallas"
"queremos mejorar ventas"

Y ahí es donde la mayoría falla.

El verdadero reto no es entrenar modelos. El verdadero reto es entender el problema correcto.

En proyectos reales de ML, los errores más costosos no vienen de elegir mal un algoritmo. Vienen de definir mal el problema desde el inicio.

En esta lección, basada en 2 proyectos reales aplicados en industria, te explico cómo piensa un data scientist y cómo puedes empezar a hacerlo tú también.

ContextoProyectos base

Los ejemplos de esta lección se apoyan en dos proyectos reales.

Proyecto 1 — Detectar pérdidas por consumo irregular (fraude / robo de energía)

Traducción ML: clasificación supervisada (detección de comportamiento sospechoso)
Target: indicador binario — 0 = normal, 1 = fraude
Métrica: Recall
Error crítico: falso negativo — no detectar fraude

Proyecto 2 — Evitar fallas en equipos críticos (mantenimiento predictivo)

Traducción ML: clasificación (fallará / no) o regresión (tiempo hasta falla — TTF)
Target: probabilidad de falla o tiempo restante
Métrica: Recall
Error crítico: falso negativo — no anticipar una falla

FrameworkEl error más común al implementar Machine Learning

Después de asesorar estos proyectos, el error más frecuente es este enfoque:

"Tengo datos → voy a aplicar un modelo"

El problema es que este enfoque está completamente invertido.

El framework correcto es:

1

¿Qué decisión se quiere tomar?

2

¿Qué variable predigo?

3

¿Qué tipo de problema es?

4

¿Qué métrica importa?

5

¿Qué errores son aceptables?

Si empiezas por el modelo, ya empezaste mal.

Porque si planteas mal el problema: eliges mal el modelo, optimizas la métrica equivocada y tomas decisiones inútiles — incluso si tu modelo funciona "bien".

ObjetivosQué vas a aprender en esta lección

Al terminar, deberías poder:

Traducir un problema de negocio a un problema de machine learning
Identificar correctamente el tipo de problema (clasificación, regresión, etc.)
Definir la variable objetivo (target)
Elegir una métrica que tenga sentido en el mundo real

El enfoque es: primero te muestro cómo resolví el primer problema, y luego te dejo el segundo como ejercicio.

Ejercicio GuiadoTraduciendo un problema real a Machine Learning

Contexto: Una empresa de energía enfrenta pérdidas económicas debido a conexiones ilegales o manipulación de medidores. El equipo directivo quiere usar datos para identificar estos casos de forma anticipada, pero aún no existe un planteamiento claro desde ML.

Tu objetivo: tomar un problema ambiguo y convertirlo en algo que se pueda modelar — traducción de negocio a ML, pensamiento estructurado, toma de decisiones y evaluación de impacto.

Paso 1 — ¿Qué decisión se quiere tomar?

La decisión no es "predecir fraude".

La decisión real es: determinar qué casos vale la pena revisar o intervenir primero.

Un data scientist piensa así: el modelo no es el objetivo — el objetivo es tomar una acción.

Se pregunta: si el modelo me da una predicción, ¿qué hago con ella?

Si un caso es sospechoso → se revisa
Si no lo es → no se prioriza

Conclusión: la decisión es priorizar qué casos inspeccionar, usando datos para enfocar recursos donde hay mayor probabilidad de problema.

Paso 2 — ¿Qué variable predigo?

Aquí es donde muchos fallan. Alguien podría apresurarse a decir: "el target es el consumo". Eso es incorrecto.

El data scientist se pregunta: ¿qué decisión quiere tomar el negocio?

Respuesta: identificar si un servicio es sospechoso o no.

El target correcto es:

Hurtos (1 = fraude, 0 = normal)

Insight clave: el target no siempre viene en los datos. Se define en función de la decisión de negocio.

Paso 3 — ¿Qué tipo de problema es?

A primera vista alguien diría: "es un problema de clasificación". Pero un data scientist con experiencia no empieza ahí.

Empieza preguntándose: ¿qué está intentando resolver el negocio realmente?

Hay pérdidas económicas no visibles directamente
Hay comportamiento irregular que se puede detectar

Es un problema de detección de anomalías / fraude.

Dado que tenemos ejemplos históricos de fraude y ejemplos normales, esto se convierte en clasificación supervisada.

3.1 — ¿Qué modelo usar?

El 90% de los estudiantes empieza con: "voy a usar X modelo". Eso es un error.

Primero se define el contexto:

Tipo de datos: tabulares
Tamaño: moderado
Ruido: alto
Features: agregadas

La decisión correcta es RandomForestClassifier — no por moda, sino porque los datos son tabulares, hay ruido, hay relaciones no lineales y se necesita interpretabilidad.

Es una decisión basada en contexto, no en teoría.

3.2 — ¿Qué variables (features) usar?

El data scientist no usa columnas "tal cual".

Se pregunta: ¿qué señales indican comportamiento sospechoso? Construye variables como:

Promedio de consumo
Variabilidad
Mínimos y máximos
Cambios abruptos
Tendencia

Insight clave: no estamos modelando consumo. Estamos modelando comportamiento.

Paso 4 — ¿Qué métrica usar?

Este es el punto más importante.

Un data scientist piensa: ¿qué error es más costoso?

No detectar fraude → pérdida económica
Marcar falso positivo → inspección innecesaria

Se debe priorizar el Recall.

La métrica no se elige por el modelo. Se elige por el impacto en el negocio.

Paso 5 — ¿Qué errores son aceptables?

Esto rara vez se enseña, pero es clave para cualquier proyecto real.

Falso negativo — Crítico

No detectas fraude → pierdes dinero → riesgo operativo. No aceptable.

Falso positivo — Tolerable

Inspección innecesaria → costo menor. Aceptable hasta cierto punto.

"Prefiero equivocarme de más que no detectar fraude."

Este problema no es sobre modelos. Es sobre: entender el negocio, definir bien el problema, construir señales útiles y elegir métricas correctas.

Deep WorkReplanteamiento completo de un problema real

Contexto: Una empresa minera quiere anticipar fallas en equipos críticos para evitar pérdidas operativas. Se cuenta con datos históricos de operación, sensores y fallas previas.

Datos disponibles: mediciones periódicas de desgaste de componentes críticos a lo largo del tiempo, con variaciones en condiciones operativas y cambios progresivos en el estado del sistema.

Importante: no empieces pensando en modelos. Primero entiende qué quieres predecir y qué decisión tomarás.

Pregunta 1 — Problema a nivel negocio

¿Qué se quiere lograr? ¿Qué decisión se quiere tomar con los datos?

Respuesta modelo:

Entender cómo evoluciona el desgaste en el tiempo para anticipar condiciones críticas y tomar decisiones oportunas de mantenimiento o intervención.

Respuesta mala:

"Analizar el desgaste de los datos" — describe datos, no decisiones.

Criterios de evaluación:

Alto: defines claramente qué decisión se quiere tomar
Medio: mencionas el objetivo pero sin decisión clara
Bajo: describes datos en lugar de la decisión a tomar

Pregunta 2 — Tipo de problema

¿Qué estás intentando hacer? Predicción, detección, estimación, segmentación, análisis de comportamiento...

Respuesta modelo:

Predicción / estimación de comportamiento continuo (degradación en el tiempo).

Respuesta mala:

"Es un problema de machine learning" — demasiado genérico, no dice nada.

Criterios de evaluación:

Alto: describes el tipo correcto más el contexto temporal
Medio: eliges la categoría correcta pero sin claridad
Bajo: eliges categoría incorrecta

Pregunta 3 — Problema de Machine Learning

¿Qué estás modelando? ¿Qué quieres predecir o estimar?

Respuesta modelo:

Modelar la evolución del desgaste a lo largo del tiempo para estimar su comportamiento futuro.

Respuesta mala:

"Predecir datos" — ambiguo, sin contexto.

Pregunta 4 — Variable objetivo (target)

¿Cómo se representa en datos? ¿Es una categoría o un valor numérico?

Respuesta modelo:

Una variable numérica que representa el desgaste o tasa de degradación (ej. pérdida de altura o tasa de desgaste por unidad de tiempo).

Respuesta mala:

"El desgaste" — no está definido, no es medible.

Pregunta 5 — Tipo de enfoque

¿Clasificación, regresión, u otro? Justifica tu respuesta.

Respuesta modelo:

Regresión, porque el objetivo es estimar una variable continua (nivel o tasa de desgaste), no una categoría.

Respuesta mala:

"Clasificación" — sin analizar el tipo de variable objetivo.

Pregunta 6 — Métrica

¿Qué métrica usarías y por qué?

Respuesta modelo:

MAE o RMSE, porque interesa medir qué tan lejos están las predicciones del valor real en términos de magnitud.

Respuesta mala:

"Accuracy" — no aplica a este tipo de problema.

Pregunta 7 — Errores críticos

¿Qué error es más grave? ¿Qué consecuencias tendría?

Respuesta modelo:

Subestimar el desgaste, porque puede llevar a decisiones tardías y aumentar el riesgo de fallas no anticipadas.

Respuesta mala:

"Todos los errores son iguales" — desconexión total de la realidad.

Pregunta 8 — Riesgos del problema

Menciona al menos 2–3 riesgos.

Respuesta modelo:

Datos ruidosos o inconsistentes
Variabilidad en condiciones operativas
Errores de medición
Datos incompletos

Respuesta mala:

"No hay riesgos" — desconexión total de la realidad.

Criterios de evaluación:

Alto: riesgos realistas y relevantes al contexto
Medio: riesgos genéricos sin conexión al proyecto
Bajo: no identifies riesgos

Ejercicio OpcionalTécnica Feynman — Explícalo sin términos técnicos

Explica tu solución como si hablaras con alguien sin conocimientos técnicos. Apóyate en estas preguntas:

¿Qué está pasando en la empresa?
¿Qué quieres predecir?
¿Cómo ayuda eso a tomar decisiones?

Regla importante: evita términos técnicos innecesarios, fórmulas y palabras como "modelo" o "algoritmo" sin explicar.

Si puedes explicarlo de forma simple, clara y coherente, realmente lo entendiste.

CierreActive Recall

Pregunta 1 — ¿Cuáles son los 5 pasos que sigue un Data Scientist?

Escríbelos en orden.

Pregunta 2 — ¿Cuál es la diferencia entre un problema de negocio y uno de ML?

Explícalo en una frase clara.

Pregunta 3 — ¿Cómo eliges la métrica adecuada?

Da un criterio concreto.

Cómo piensa un Data Scientist en el mundo real y por qué la mayoría falla en Machine Learning

Punto de partidaEl problema que nadie te enseña

ContextoProyectos base

FrameworkEl error más común al implementar Machine Learning

ObjetivosQué vas a aprender en esta lección

Ejercicio GuiadoTraduciendo un problema real a Machine Learning

Problema 1: Empresa de Energía

Paso 1 — ¿Qué decisión se quiere tomar?

Paso 2 — ¿Qué variable predigo?

Paso 3 — ¿Qué tipo de problema es?

3.1 — ¿Qué modelo usar?

3.2 — ¿Qué variables (features) usar?

Paso 4 — ¿Qué métrica usar?

Paso 5 — ¿Qué errores son aceptables?

Deep WorkReplanteamiento completo de un problema real

Mantenimiento Predictivo de un Molino SAG

Pregunta 1 — Problema a nivel negocio

Pregunta 2 — Tipo de problema

Pregunta 3 — Problema de Machine Learning

Pregunta 4 — Variable objetivo (target)

Pregunta 5 — Tipo de enfoque

Pregunta 6 — Métrica

Pregunta 7 — Errores críticos

Pregunta 8 — Riesgos del problema

Ejercicio OpcionalTécnica Feynman — Explícalo sin términos técnicos

Explica lo que acabas de hacer

CierreActive Recall

Recuperación activa — sin ver notas