Data Quality

valores-faltantes-streaming

Identifica información del futuro filtrándose en tu dataset antes de perder semanas entrenando un modelo inválido

⚡ Úsalo cuando: Construyes features agregados, trabajas con datos temporales, o tu accuracy en train es sospechosamente alto

Leakage = usar información que no existiría en el momento de predicción real. No es overfitting, es contaminar tu train set con señales del futuro que no tendrás en producción.

Normalizar con estadísticas de todo el dataset, incluir variables post-evento en features, usar random split en datos temporales, calcular agregados sin cutoff temporal estricto.

Validación temporal estricta, pipeline de features sin contaminación, y modelos que realmente funcionan en producción sin caída dramática de performance.

ML Dictionary

Toolkit

Playbook

Laboratorios

valores-faltantes-streaming

ML Dictionary

Toolkit

Playbook

Laboratorios

valores-faltantes-streaming

Stay Updated

Thanks for subscribing!