¿Necesito deep learning para mi tesis de machine learning?

No. Un modelo simple bien aplicado puede ser suficiente. Lo que realmente evalúan los comités es que exista criterio de diseño, comparación con otros enfoques y una contribución clara, no la complejidad del modelo.

¿Qué es más importante en una tesis de ML: el modelo o los datos?

Los datos. Sin datos adecuados no hay modelo posible. Además, hoy una buena tesis implica construir un sistema con un caso de uso concreto, no solo entrenar un modelo.

Cómo usar Machine Learning en tu tesis de pregrado o posgrado

Q: ¿Cuánto tiempo toma una tesis de machine learning?

Entre 6 y 12 meses dependiendo del nivel académico. En pregrado suelen ser 6 meses a un año; en maestría y doctorado los tiempos son mayores. Un alcance bien acotado desde el inicio es la variable que más influye en terminar a tiempo.

Q: ¿Cómo saber si una idea de tesis es investigable con machine learning?

Una idea es investigable con ML si el problema no tiene solución determinista, depende de múltiples variables y puede expresarse como inputs → modelo → outputs. También necesitas encontrar al menos un artículo que valide el enfoque y datos con los que hacer una prueba inicial.

Una tesis de machine learning es válida cuando cumple tres condiciones: tiene una contribución clara y medible, aplica criterio de diseño —no solo ejecución técnica— y está respaldada por literatura académica. Más allá del modelo, lo importante es definir un problema bien acotado, validar su viabilidad con datos reales y demostrar cómo tu solución genera valor en un contexto específico.

Esto aplica si estás en pregrado, maestría o doctorado. El nivel cambia la profundidad de la contribución, pero las decisiones de diseño que hacen que un proyecto sea viable son las mismas.

En esta guía no vas a encontrar solo qué hacer, sino cómo tomar decisiones concretas: cómo elegir un tema viable, cómo validar tu idea antes de programar, cómo estructurar el proyecto y cómo sostener tus decisiones técnicas frente al comité.

Tabla de contenido:

Qué hace que una tesis de machine learning sea válida
Cómo elegir un tema de tesis sin equivocarte
Cómo saber si tu idea de tesis es viable
Viabilidad real: datos, sistema y contexto
Decisiones técnicas: lo que realmente evalúan
Cómo evitar bloquearte en tu tesis
Guía rápida de decisión
Preguntas frecuentes

Qué hace que una tesis de machine learning sea válida

Aquí está el punto donde la mayoría se confunde. No existe una única definición universal. En la práctica, la validez de una tesis depende de la universidad, el país y especialmente el asesor.

Trabajando con estudiantes de distintos contextos —Perú, Colombia y Chile, entre otros— los criterios cambian, pero hay patrones comunes que se repiten.

El criterio del profesor importa más de lo que crees

Más allá de la universidad o el país, lo que realmente define si tu tesis es válida es el criterio del profesor específico con quien estás trabajando. Antes de avanzar demasiado, es fundamental que entiendas qué es lo que él o ella considera suficiente, tanto académica como prácticamente. Dos asesores de la misma universidad pueden tener expectativas muy diferentes sobre lo que hace una tesis de machine learning válida.

Las 3 condiciones que sí se repiten

1. Contribución clara y medible

Tu tesis debe responder: ¿qué estoy aportando exactamente? No basta con aplicar un modelo. Debes comparar contra otros enfoques, definir métricas y demostrar mejora o valor. En guías como las de Google Developers, el proceso de machine learning se define como un sistema completo que incluye definición del problema, datos y evaluación, no solo el modelo en sí.

2. Criterio de diseño — lo que llaman innovación

Cuando te piden innovación, normalmente significa que exista ingeniería detrás de tu solución. No basta con aplicar un modelo directamente a un conjunto de datos. Lo que el comité quiere ver es que diseñaste un pipeline, justificaste tus decisiones y adaptaste el sistema al problema. No basta con decir "voy a aplicar YOLO para detectar fallas en equipos" si no hay criterio de diseño detrás.

3. Sustento en literatura

Necesitas al menos uno o dos artículos de referencia para validar tu enfoque y comparar resultados. Estos artículos no solo te dan sustento; también te dicen qué se ha hecho antes y dónde está la oportunidad de contribuir.

Antes de avanzar demasiado, alinea estos criterios con tu asesor. La evaluación final sigue siendo contextual y no hay sustituto para esa conversación.

Cómo elegir un tema de tesis en machine learning sin equivocarte

El error más común: elegir un problema demasiado grande

Lo que pasa frecuentemente es que un estudiante lee un paper, quiere replicarlo y además mejorarlo. Pero ese paper fue hecho por un equipo de dos, tres o cinco personas que trabajaron durante meses o años en esa línea de investigación. No sabes cuánto tiempo llevan en eso. Tú estás empezando.

Este tipo de sobrealcance crece rápidamente cuando no se define bien el problema desde el inicio, como se describe en Hidden Technical Debt in Machine Learning Systems.

La habilidad clave: acotar

Una buena tesis no es la más compleja. Es la que está bien definida, es ejecutable y demuestra criterio. Antes de elegir tu tema, responde: ¿qué puedo lograr en 6 meses? ¿Qué recursos tengo? ¿Qué puedo validar rápido? Acotar no reduce el valor del proyecto. Al contrario: entre más acotado el problema, más puedes profundizar en él y generar una contribución real.

Cuando el asesor también quiere un alcance grande

A veces el problema no viene solo del estudiante. Hay asesores que no son expertos en machine learning y también proponen alcances demasiado ambiciosos. En esos casos, la habilidad clave es negociar. No se trata de contradecir al profesor, sino de construir juntos un alcance que sea riguroso y ejecutable en el tiempo disponible. Una buena contribución bien acotada convence más que una promesa grande sin cumplir.

Un problema pequeño bien resuelto tiene más valor que uno grande incompleto.

Cómo saber si tu idea de tesis es viable

Una idea no es suficiente. Necesitas validarla antes de comprometerte.

1. ¿Existe sustento en artículos?

Busca en la literatura problemas similares, datasets utilizados y enfoques existentes. Esto te da contexto, te muestra los límites de lo que ya se ha hecho y te ayuda a identificar dónde está la oportunidad de contribuir. También te da los artículos de referencia que necesitarás para comparar tus resultados.

2. ¿Es un problema modelable con ML?

Un problema es adecuado para machine learning si no tiene solución determinista, depende de múltiples variables y puede expresarse como inputs hacia un modelo hacia outputs con un target definido. Si el problema puede resolverse con un algoritmo determinista, machine learning no es la herramienta correcta.

3. Valida con un MVP antes de comprometerte

Antes de elegir el tema definitivo, haz una prueba rápida de uno a dos días: usa un dataset, entrena un modelo simple y observa los resultados. Hoy puedes hacerlo con notebooks y con ayuda de herramientas de IA. En documentación técnica como la de scikit-learn, se recomienda evaluar modelos de forma iterativa desde etapas tempranas, en lugar de esperar a tener una solución final.

Si obtienes un resultado medianamente razonable con los datos que encontraste, eso te dice que el camino es viable. No estás validando el resultado final; estás validando que el problema es resoluble con el enfoque que elegiste.

Viabilidad real: datos, sistema y contexto

Aquí es donde muchos proyectos fallan sin darse cuenta.

1. Los datos son el insumo principal

Antes de cualquier otra decisión, responde: ¿existen datos? ¿Puedo acceder a ellos? ¿Puedo generarlos o conseguirlos? Las opciones son datasets abiertos, datos propios, datos sintéticos o proxies. Sin datos no hay modelo posible. Como muestra la investigación Data Cascades in High-Stakes AI, muchos fallos en sistemas de IA no provienen del modelo sino de problemas acumulativos en los datos a lo largo del ciclo de vida del proyecto.

Cómo encontrar datasets de forma efectiva

Una táctica concreta: busca en Google Scholar el tipo de clasificación o problema que te interesa junto con la palabra "dataset". Lee los artículos que aparezcan y revisa cuáles tienen datos abiertos. Prioriza publicaciones de los últimos tres a cinco años para que los datasets no estén saturados en la literatura. Si encuentras un dataset más antiguo pero un artículo reciente lo sigue usando y citando, también es válido: significa que sigue siendo relevante.

2. Tu tesis es un sistema, no solo un modelo

Hoy, una buena tesis implica resolver un problema real con un caso de uso concreto. Entrenar un modelo no es suficiente. Para que tu contribución sea sólida, necesitas darle una aplicación. Por ejemplo, dos tesis pueden usar arquitecturas similares para la detección de equipos de seguridad a través de video, pero una puede ser un sistema en tiempo real para emitir alertas y otra puede ser un sistema de monitoreo diferido. El modelo puede ser similar; la contribución es diferente porque la aplicación es diferente.

Esto se alinea con cómo se entienden los sistemas de machine learning en la práctica, donde, como se discute en Hidden Technical Debt in Machine Learning Systems, el modelo es solo una parte de un sistema mucho más amplio.

La viabilidad también depende de la infraestructura que tienes disponible: ¿tendrás acceso a un entorno real para evaluar el sistema? ¿Puedes desplegarlo o evaluarlo de otra forma? Esas preguntas forman parte del diseño desde el inicio.

3. Por qué el MVP también te protege emocionalmente

Uno de los bloqueos más frecuentes en tesis de machine learning no es técnico: es la desesperación cuando los resultados no son tan buenos como se esperaba. Hacer una prueba rápida al inicio no solo valida la dirección técnica, también te da una expectativa realista. Si ya sabes de antemano que los datos son complicados o que el problema requiere más trabajo de preparación, no te toma por sorpresa más adelante cuando el proyecto ya está avanzado.

Decisiones técnicas: lo que realmente evalúan

Cómo justificar la elección de un modelo

No se trata de elegir el mejor modelo en abstracto. Se trata de comparar varios, establecer un baseline y justificar los resultados. Los revisores siempre buscan comparaciones. No basta con decir que tu modelo funciona bien; tienes que demostrar que funciona mejor que los enfoques alternativos y explicar por qué elegiste ese enfoque y no otro.

Un modelo simple será suficiente cuando los resultados son adecuados, cuando los datos están bien preparados o cuando el problema no requiere mayor complejidad. No hay razón para usar un modelo complejo si uno simple cumple el objetivo con resultados que puedes defender.

Métricas: lo que realmente importa

No hay una métrica universal. La métrica correcta depende del problema: en salud, puede que lo más importante sea minimizar falsos negativos; en monitoreo industrial, puede que importe más el equilibrio entre precisión y recall. La pregunta que siempre te van a hacer es cuál es tu métrica más importante y por qué. Esa respuesta tiene que ligar la métrica al impacto del problema que tu tesis está resolviendo.

Interpretabilidad como ventaja competitiva

Si puedes explicar tu modelo, ganas puntos académicos y fortaleces tu argumento. Si las variables más importantes en tu modelo se pueden explicar intuitivamente con el problema, eso es un plus enorme. No siempre es posible, pero cuando lo es, vale mucho. Herramientas como SHAP o LIME pueden ayudarte a construir esa interpretación de forma rigurosa.

Cómo evitar bloquearte en tu tesis

Define una ruta crítica interna

El plan de tesis es un entregable académico. En muchas universidades incluye cronogramas, costos y una matriz de consistencia que te piden antes de que hayas entendido bien el problema. Tienes que entregarlo, pero no siempre funciona como una guía operativa real para el trabajo técnico.

Lo que sí necesitas, en paralelo, es una ruta crítica interna: menos pasos, más concretos, orientados a las decisiones técnicas que realmente te van a desbloquear. Esa ruta te da el cuadro general para avanzar con criterio y tomar decisiones de desarrollo más adecuadas. La coherencia entre título, objetivos, hipótesis, variables y forma de analizar los datos es lo que sostiene una tesis; cuando esa coherencia falta, el proyecto se rechaza desde la idea.

Invierte en antecedentes y marco teórico

Esta es una de las partes que más tiempo consumen cuando se hace bien, y también una de las que más retorno dan. Los antecedentes y el marco teórico te dan los argumentos para responder las preguntas del comité, te permiten referenciar otros trabajos y explicar la diferencia con el tuyo, y te dan claridad sobre el problema antes de escribir código. No es tiempo perdido; es la base sobre la que se sostiene todo lo demás.

Valida antes de escalar

Muchos problemas vienen de no probar rápido y de esperar tener una solución perfecta antes de evaluar. Haz el experimento rápido primero. Con los datos que encuentres, un notebook y ayuda de herramientas de IA, puedes tener información valiosa en uno o dos días para saber si el camino es viable. Eso es lo que te permite tomar decisiones informadas antes de comprometer semanas de trabajo.

Guía rápida de decisión

Dependiendo de tu situación, aquí está lo más importante:

Si tienes poco tiempo

Usa datasets que ya existan. Busca en Google Scholar el tipo de problema que te interesa junto con la palabra "dataset", filtra por los últimos tres a cinco años y busca aquellos con datos abiertos. Si encuentras un dataset más antiguo pero un artículo reciente lo sigue usando, también es válido.

Si no tienes datos

Piensa si puedes conseguirlos, generarlos de forma sintética o encontrar un proxy. Los datos son el insumo principal del modelo. Sin ellos no hay tesis viable, y replantear el tema a tiempo es mejor que descubrirlo tarde.

Si eres principiante o nivel intermedio

Evita un alcance demasiado grande. La complejidad que no puedes manejar en el tiempo disponible no suma; resta. Un alcance bien acotado te permite profundizar en el problema y generar una contribución real.

Si quieres impacto

Define primero hacia dónde quieres el impacto: al problema o a los modelos. Puedes tener un modelo simple que resuelva un problema médico con alto impacto en la aplicación, o puedes hacer mayor ingeniería en la arquitectura y contribuir más al estado del arte técnico. Idealmente las dos cosas son posibles, pero no siempre lo son. Una vez que defines hacia dónde va el impacto, revisa los artículos de referencia, identifica cuál ha sido su contribución e intenta avanzar en esa dirección con el problema acotado que elegiste.

Acotar un problema no reduce su valor. Lo hace resoluble.

Preguntas frecuentes sobre tesis de machine learning

¿Qué tan difícil es hacer una tesis con machine learning?

Depende del alcance. Un proyecto bien acotado es manejable incluso en 6 meses. El error más común es elegir un problema demasiado grande sin tener en cuenta el tiempo y los recursos disponibles.

¿Necesito deep learning para mi tesis?

No. Un modelo simple bien aplicado puede ser suficiente. Lo que realmente evalúan los comités es el criterio de diseño, la comparación con otros enfoques y la claridad de la contribución.

¿Cómo elijo un tema de tesis en machine learning?

El tema debe ser viable en datos, tiempo y complejidad. Antes de comprometerte, valida que existan artículos de referencia, que el problema sea modelable con ML y que puedas hacer una prueba rápida con datos reales.

¿Qué es más importante: el modelo o los datos?

Los datos. Sin datos adecuados no hay modelo posible. Además, una buena tesis hoy implica construir un sistema con un caso de uso concreto, no solo entrenar un modelo.

¿Cuánto tiempo toma una tesis de machine learning?

Entre 6 y 12 meses dependiendo del nivel. En pregrado suelen ser 6 meses a un año; en maestría y doctorado los tiempos son mayores. Un alcance bien acotado desde el inicio es la variable que más influye en terminar a tiempo.

¿Cómo saber si una idea de tesis es investigable con machine learning?

Una idea es investigable si el problema no tiene solución determinista, depende de múltiples variables y puede expresarse como inputs hacia un modelo hacia outputs. También necesitas encontrar al menos un artículo que valide el enfoque y datos con los que hacer una prueba inicial.

Continúa con estos recursos del mismo nivel

O regresa al pilar principal sobre cómo diseñar un proyecto de machine learning antes de programar.

Si ya tienes un proyecto de tesis en marcha y necesitas ayuda para definirlo o destrabarlo, puedes escribirme directamente. Muchas veces un ajuste en el diseño del problema cambia todo el resultado.