Data Quality
¿Cómo detectar leakage antes de entrenar?
Identifica información del futuro filtrándose en tu dataset antes de perder semanas entrenando un modelo inválido
⚡ Úsalo cuando: Construyes features agregados, trabajas con datos temporales, o tu accuracy en train es sospechosamente alto
Leakage = usar información que no existiría en el momento de predicción real. No es overfitting, es contaminar tu train set con señales del futuro que no tendrás en producción.
Normalizar con estadísticas de todo el dataset, incluir variables post-evento en features, usar random split en datos temporales, calcular agregados sin cutoff temporal estricto.
Validación temporal estricta, pipeline de features sin contaminación, y modelos que realmente funcionan en producción sin caída dramática de performance.