/ Diseño ML / Cómo elegir un tema de investigación
Cómo Elegir un Tema de Investigación en Machine Learning y Validarlo Paso a Paso
El camino al éxito empieza con la pleaneación
¿Qué encontrarás en esta guía?
- ¿Cómo encuentro un buen tema de investigación en Machine Learning?
- ¿La contribución de mi tema es suficientemente buena?
- ¿Voy a poder realizar el código del proyecto?
- ¿Cómo puedo estructurar mi proyecto correctamente?
¿Qué encontrarás en esta guía?
Esta sección del ATLAS te ayudará a definir un problema investigable, acotado y defendible.
Encontrarás un framework práctico para buscar y validar tu tema de investigación, junto con listas estructuradas y una miniguía contextual.
- Elegir un tema en Machine Learning requiere algo más que seguir tendencias.
- Un buen tema debe ser relevante, viable y tener una contribución clara.
- El proceso incluye identificar un research gap, definir el problema y validar la viabilidad técnica.
- Esta guía explica paso a paso cómo estructurar un proyecto de investigación en IA.
MotivaciónPor qué elegir bien tu tema importa más de lo que parece
No necesitas resolver los problemas de la humanidad con tu proyecto.
Pero sí necesitas que sea bueno, sólido y que tenga una contribución interesante. Porque no solo quieres obtener el grado — también quieres que tu proyecto te represente, te haga sentir orgulloso y, idealmente, te dé experiencia real para el campo laboral.
Buscar un tema en Machine Learning no es tan simple como revisar una lista de tendencias. Hay tantas opciones y recursos disponibles que es fácil sentirse abrumado.
Por eso, elegir bien desde el inicio marca una diferencia enorme en el desarrollo de tu tesis.
Un buen tema no solo debe ser interesante. También debe ser viable, estar bien delimitado y tener una contribución clara.
El verdadero desafío no es únicamente decidir qué investigar, sino estructurar correctamente el problema y evaluar su viabilidad técnica antes de empezar a programar.
En esta guía aprenderás cómo encontrar un tema de investigación en machine learning de forma estructurada. Como bonus encontrarás una lista de ideas de temas por sector.
Antes de escribir códigoPor qué planear importa más que empezar a programar
Si ya sabes que planear importa, puedes saltar a la siguiente sección.
Qué debes definir antes de escribir una sola línea en Python
Puede que razones: quiero avanzar rápido, me voy directo al código.
Sin embargo, empezar sin planeación puede hacer que tu proyecto esté mal definido, que tengas que cambiar de dirección y que pierdas tiempo valioso.
¿Cuánto tiempo hay que planear? La respuesta es: hay que tener equilibrio. Elegir un tema requiere planificación estratégica, pero sin caer en la parálisis por análisis.
Como dice el refrán, "El que no sabe a qué puerto va, ningún viento es favorable". En investigación pasa lo mismo.
Si no tienes claro qué problema vas a resolver, puedes usar muchas herramientas y modelos avanzados, pero estarás trabajando sin rumbo.
Antes de escribir código, define:
- Qué problema resolverás
- Por qué importa resolverlo
- Cuál será tu contribución concreta
- Hasta dónde llegará tu trabajo
Eso no es perder tiempo. Es evitar errores.
Primero claridad estratégica, luego ejecución técnica.
Si te preguntas cómo validar un tema antes de escribir código, la respuesta está en tres puntos:
- Definir correctamente el problema
- Delimitar el alcance del proyecto
- Identificar el Research Gap
Framework principalCómo Encontrar un Tema de Investigación en Machine Learning Paso a Paso
Si aún no tienes un tema definido, sigue este proceso estructurado.
Aunque existen muchas metodologías, las que se presentan a continuación han ayudado a muchos estudiantes a definir su tema con claridad y seguridad.
Explorar tendencias
Busca trabajos relacionados con tus intereses. Analiza qué problemas existen, qué datos se usan y qué técnicas son populares en tu sector.
Estructurar artículos
Organiza los artículos encontrados en una tabla para entender el panorama: problemas existentes, datasets disponibles y técnicas más utilizadas.
Buscar dónde contribuir
Filtra y amplía tu tabla de hallazgos para detectar el research gap: dónde tu trabajo puede aportar algo nuevo o resolver algo no resuelto.
Decidir qué quieres hacer
Con toda la información organizada, toma una decisión informada sobre el tema, el alcance y la contribución de tu proyecto.
Paso 1: Explorar tendencias actuales en IA y Machine Learning
Aquí hay dos caminos posibles.
Puede que ya estés familiarizado con el problema que quieres resolver. O puede que solo sepas el sector que te interesa y quieras ver qué tendencias existen dentro de él.
Una opción es preguntarle a un asistente de IA, pero lo que realmente funciona es construir un query para Google Scholar y analizar los resultados con atención.
Explora las tendencias de tu sector en función de:
- Qué problemas existen
- Qué datos se usan
- Qué técnicas son populares
Con eso puedes decidir cuál de esas líneas quieres seguir.
Cómo buscar correctamente en Google Scholar
Algo que funciona muy bien es usar este esquema, reemplazando "sector" por tu área de interés:
AND ("machine learning" OR "artificial intelligence")
AND ("review" OR "survey" OR "applications")
No olvides aplicar el filtro de fecha: busca trabajos de no más de 3 a 4 años de antigüedad.
En esta etapa, concéntrate en el sector que te gusta, no tanto en el problema específico todavía.
Si tienes más contexto del problema, puedes reemplazar "sector" por una descripción más específica. Pero recuerda: que la IA lo haga todo de forma automática puede ser peligroso si no prestas atención a lo que estás haciendo.
Cómo identificar problemas, datasets y técnicas más utilizadas
¿Qué haces con todos esos resultados? Necesitas darles estructura.
Puedes pedirle a un asistente de IA: "Construye una tabla con las columnas: ¿qué problema existe?, ¿qué datos usa? y ¿qué técnica se usa? Coloca el top 5 de los más populares."
Por ejemplo, para el sector salud mental, los 5 temas más frecuentes son:
1. Predicción en salud mental (depresión, ansiedad, riesgo)
- Datos: encuestas clínicas, registros electrónicos (EHR), datos de comportamiento digital
- Técnica: ML supervisado, Deep Learning, NLP
2. Aplicaciones de IA en práctica clínica (diagnóstico, apoyo médico)
- Datos: Electronic Health Records (EHR), datos clínicos estructurados
- Técnica: Random Forest, SVM, Gradient Boosting, Redes Neuronales
3. Bias y equidad en modelos de salud
- Datos: EHR, datasets poblacionales de pacientes
- Técnica: Fairness-aware ML, mitigación de sesgo, auditorías algorítmicas
4. Explainable AI y confianza clínica
- Datos: modelos predictivos sobre EHR o imágenes médicas
- Técnica: SHAP, LIME, modelos interpretables, XAI frameworks
5. Salud pública y monitoreo digital (remote monitoring, IoT, wearables)
- Datos: sensores biométricos, wearables, datos IoT
- Técnica: Deep Learning, series de tiempo, LSTM, CNN
Antes de seguir, vale la pena preguntarte qué tipo de proyecto buscas:
- ¿Buscas algo muy innovador?
- ¿O algo con contribución suficiente pero rápido de ejecutar?
- ¿O algo relacionado con un problema de tu localidad?
- ¿O algo vinculado al trabajo de tu asesor?
Es muy importante verificar que existan datos disponibles para el problema que quieres resolver. Sin datos, no hay proyecto viable.
Paso 2: Crear una bitácora de research gap
No basta con leer artículos. Necesitas organizarlos.
Una vez que tienes un sector y preguntas que quieres resolver, haz una búsqueda más específica y construye una tabla enfocada en entender la brecha de investigación.
Ten en cuenta que la exigencia varía según tu grado:
- Licenciatura / Ingeniería: no se requiere generar conocimiento nuevo. Puede ser aplicar algo similar a un contexto diferente.
- Maestría: similar, con mayor rigor metodológico.
- Doctorado: se exige generar conocimiento nuevo, ya sea aplicado o básico.
Ejemplo de research gaps identificados en 3 papers destacados del sector salud:
Mental health prediction using ML: taxonomy, applications, and challenges (2022)
- Problema: predicción y clasificación de trastornos de salud mental
- Datos: encuestas psicológicas, EHR, datos conductuales
- Técnica: ML supervisado (SVM, Random Forest), Deep Learning
- Research gap: falta de generalización entre poblaciones, datasets pequeños, poca validación externa
Unmasking bias in AI: bias detection and mitigation in EHR-based models (2024)
- Problema: identificar y mitigar sesgo en modelos entrenados con registros de salud
- Datos: Electronic Health Records (EHR), datasets clínicos poblacionales
- Técnica: Fairness-aware ML, análisis estadístico comparativo
- Research gap: sin estandarización para medir bias; poca implementación en sistemas clínicos reales
Remote patient monitoring using AI (2023)
- Problema: monitoreo remoto de pacientes con IA
- Datos: IoT, wearables, sensores biométricos en tiempo real
- Técnica: Deep Learning, LSTM, CNN, series de tiempo
- Research gap: integración limitada con sistemas hospitalarios, problemas de privacidad y validación clínica insuficiente
Una vez que tienes tu research gap, tienes más seguridad y una visión más clara del problema que quieres resolver.
¿Cuántos artículos deberías revisar al elegir tu tema?
La respuesta honesta es: depende. Pero hay algo que no cambia:
La verdadera contribución surge cuando detectas qué falta en la literatura. Ahí es donde aparece el research gap.
Una referencia general por nivel académico:
- Licenciatura: 15 a 20 artículos base
- Maestría: 25 a 40 artículos con rigor metodológico
- Doctorado: 50 o más, con cobertura exhaustiva
Crea una bitácora de seguimiento desde el día uno. Para cada artículo registra:
- Autor y año
- Problema que aborda
- Dataset utilizado
- Modelo o técnica aplicada
- Resultados principales
- Limitaciones detectadas
- Posible research gap identificado
Con el tiempo, esa tabla se vuelve oro puro. Empiezas a ver patrones, notas qué se repite y qué nadie está resolviendo.
¿Cuánto tiempo es bueno investigar antes de decidir?
En Google Scholar, Scopus o IEEE, agrega siempre un filtro de no más de 3 o 4 años.
Machine Learning evoluciona muy rápido. Leer trabajos muy antiguos puede servir para contexto, pero necesitas entender el estado actual del campo.
5 a 10 artículos bien entendidos pueden ser suficientes para definir tu problema. No necesitas 100 papers mal leídos.
Una estrategia efectiva:
- Empieza con 20 o 30 artículos
- Organízalos por temas
- Identifica patrones comunes
- Quédate con los 3 a 5 más relevantes para tu enfoque
Aprende a leer artículos estratégicamente
Casi nadie lo enseña: no tienes que leer cada paper completo palabra por palabra.
Concéntrate en estas cuatro partes:
- Abstract — ¿de qué trata?
- Resultados — ¿qué lograron?
- Figuras — ¿qué muestra visualmente?
- Limitaciones — ¿qué no resuelven?
Con eso puedes decidir rápidamente si el artículo aporta a tu trabajo.
Si lees un artículo una o dos veces y no lo entiendes, cámbialo. No es que no seas capaz.
Relación entre revisión bibliográfica y estructura de tesis
Este proceso no es solo para "cumplir" con el estado del arte.
Te ayuda directamente a:
- Definir tu problema de investigación
- Justificar tu trabajo ante el comité
- Identificar variables y datasets disponibles
- Formular hipótesis sólidas
- Diseñar tu metodología de forma coherente
Una buena tesis no empieza con código. Empieza con una pregunta clara basada en un vacío real.
Paso 3: Detectar una brecha de investigación real
Qué significa realmente "novedoso" en investigación
Muchas veces decimos que un tema debe ser novedoso y estar en tendencia.
Pero "novedoso" puede ser un concepto bastante subjetivo. No existe un número exacto que nos diga qué tan novedoso es un proyecto.
Por eso no debes preocuparte demasiado por si algo es extremadamente innovador o no. Enfócate en cuál es tu contribución dentro del campo.
Una forma clara de hacerlo es investigar el research gap: aquello que aún no está resuelto o no ha sido suficientemente explorado.
Popularidad vs. impacto científico
Un proyecto puede ser muy popular, pero no necesariamente tener un gran impacto científico.
Y también puede ocurrir lo contrario: un impacto enorme con poca popularidad.
Cuando piensas en tu tema de tesis, no confundas tendencia con relevancia académica. La clave sigue siendo la contribución real que puedes aportar.
Organización formalCómo estructurar tu proyecto de tesis en Inteligencia Artificial
"Una buena idea mal estructurada puede convertirse en un proyecto inviable."
No basta con tener una buena idea. Necesitas ordenarla correctamente para que sea viable, clara y defendible.
El árbol problema–solución
El árbol problema–solución te ayuda a definir tus objetivos, tu alcance, tus hipótesis e incluso a ajustar el problema inicial.
Es completamente normal que tengas que regresar a un punto anterior, mejorar algo o replantear una parte del proyecto. No te estreses por eso.
Hacer esta planeación te obliga a entender profundamente el problema, sus causas y por qué vale la pena resolverlo.
Si logras esa claridad, tendrás más entusiasmo al desarrollar tu trabajo y tendrás mucho más definido tu alcance y tu contribución.
Cómo definir un problema sin confundirlo con la solución
El árbol problema–solución empieza con la definición del problema. Y aquí es clave no confundir problema con solución.
Mal planteado:
"El sistema necesita más memoria RAM para todas las peticiones."
Este enunciado ya implica una solución (añadir RAM), limitando el análisis a una sola alternativa.
Bien planteado:
"El sistema no puede procesar todas las peticiones que se hacen al servicio."
Describe el problema real sin limitar las posibles soluciones.
Cuando defines correctamente el problema, no te limitas a una sola alternativa. Y eso es esencial para construir un proyecto sólido desde su base.
Checklist para validar que tu problema está bien formulado
- ¿Estoy describiendo una situación negativa observable, o estoy mencionando una tecnología o herramienta específica? Si mencionas la solución concreta, probablemente no es el problema.
- ¿El enunciado sigue siendo válido aunque cambie la posible solución? Si al quitar "modelo X" o "algoritmo Y" el problema deja de tener sentido, estaba mal formulado.
- ¿Mi redacción describe el efecto que ocurre y no la causa que supongo? Si estás afirmando lo que "crees que falta", probablemente estás escribiendo una solución encubierta.
Cómo definir objetivos, hipótesis y alcance a partir del árbol problema–solución
Si ya construiste tu árbol problema–solución, ahora viene convertirlo en algo formal para tu tesis.
Definir el problema central (sin solución implícita)
Formula una situación negativa observable. No incluyas soluciones disfrazadas.
Mal: "El sistema necesita más datos para funcionar mejor."
Bien: "El sistema presenta baja precisión en escenarios con datos limitados."
Identificar causas principales y secundarias
Pregúntate: ¿por qué ocurre este problema?
Causas principales:
- Modelos poco robustos ante pocos datos
- Mala selección de características
- Sobreajuste (overfitting)
Causas secundarias:
- Dataset desbalanceado
- Falta de regularización
- Arquitectura inadecuada
Identificar consecuencias directas e indirectas
Analiza qué provoca el problema para justificar por qué vale la pena investigarlo.
Consecuencias directas:
- Baja precisión del modelo
- Alta tasa de error
Consecuencias indirectas:
- Mala experiencia del usuario
- Decisiones incorrectas basadas en predicciones
Seleccionar la causa específica que vas a abordar
No puedes atacar todo. Debes elegir una causa concreta.
Ejemplo: "Baja robustez del modelo en escenarios de pocos datos."
Aquí es donde realmente empiezas a elegir tu tema, porque estás delimitando tu intervención.
Justificar la decisión de intervención
Explica por qué elegiste esa causa y no otra. Puede ser porque:
- Existe un research gap en ese punto específico
- Hay pocos estudios recientes sobre el tema
- Los métodos actuales presentan limitaciones claras
Esta justificación fortalece directamente el capítulo de estado del arte.
Formular el objetivo general
El objetivo general es la acción directa sobre la causa elegida.
Ejemplo: "Desarrollar un modelo robusto para clasificación en escenarios con datos limitados."
Derivar objetivos específicos
Divide el objetivo general en acciones medibles y verificables.
- Analizar técnicas actuales para aprendizaje con pocos datos
- Implementar un modelo basado en transferencia de aprendizaje
- Comparar el desempeño con modelos tradicionales
- Evaluar el impacto en métricas de precisión y recall
Los objetivos específicos deben poder medirse. Si no puedes comprobarlos, están mal formulados.
Formular la hipótesis
Define la relación intervención–resultado esperado.
Ejemplo: "Si se aplica transferencia de aprendizaje en escenarios con datos limitados, entonces se incrementará la precisión del modelo en comparación con métodos tradicionales."
La hipótesis es el puente entre el problema y la validación experimental.
Delimitar el alcance
Define qué incluye y qué excluye tu trabajo.
Incluye:
- Dataset específico definido
- Tipo de modelo concreto
- Métricas determinadas
Excluye:
- Otros tipos de arquitecturas
- Aplicaciones en dominios distintos
- Escenarios fuera del dataset definido
Delimitar el alcance evita que tu proyecto se vuelva infinito.
Establecer criterios de evaluación
Define cómo sabrás si tu propuesta funciona. Sin métricas claras, no hay validación científica.
- Accuracy
- F1-score
- Recall
- AUC
- Precision
Método Qué – Cómo – Para qué
Cuando ya detectaste el problema, analizaste el research gap y trabajaste el árbol problema–solución, necesitas claridad estratégica.
Aquí entra el método Qué – Cómo – Para qué. Simple, pero extremadamente poderoso.
Te obliga a resumir tu proyecto en tres preguntas fundamentales:
¿Qué? — Define la intervención principal.
Ejemplo: "Desarrollar un modelo predictivo."
¿Cómo? — Delimita la metodología técnica.
Ejemplo: "Usando redes neuronales LSTM."
¿Para qué? — Conecta con el impacto esperado.
Ejemplo: "Mejorar la precisión en predicción de demanda."
Cuando logras escribir tu objetivo general bajo esta estructura, todo empieza a tener coherencia.
Ya no tienes ideas sueltas. Tienes una dirección clara.
Si no puedes explicar tu proyecto en formato Qué – Cómo – Para qué, probablemente todavía no está lo suficientemente claro.
Banco de ideasIdeas de proyectos de investigación en Machine Learning por sector
A continuación encontrarás ideas concretas organizadas por sector, con datasets reales que puedes usar como punto de partida.
Salud
Salud · Idea 1
Chatbot inteligente para asistencia médica
Usa datasets de preguntas y respuestas en lenguaje natural para entrenar modelos que respondan dudas médicas. Útil para educación en salud o atención primaria automatizada.
Dataset: MedFit en Hugging FaceSalud · Idea 2
Modelos de ML para análisis clínico
Usa datasets abiertos de salud para entrenar modelos que predigan condiciones médicas o indicadores de riesgo basados en registros o señales biomédicas.
Datasets de salud en KaggleIndustria
Industria · Idea 1
Optimización de procesos industriales con técnicas predictivas
Aplica ML a datos de producción para predecir fallas o mejorar eficiencia. Puedes usar repositorios abiertos para validación.
Repositorio en KaggleIndustria · Idea 2
Aprendizaje federado para colaboración industrial
Investiga cómo aplicar federated learning a datos de distintas máquinas o plantas, permitiendo entrenamiento colaborativo sin compartir datos sensibles.
Benchmark FL en arXivFinanzas
Finanzas · Idea 1
Reconocimiento de entidades financieras en texto con NLP
Entrena modelos de lenguaje para detectar y clasificar conceptos financieros en textos largos como reportes o noticias. Útil para análisis de riesgo o automatización de inversión.
Dataset NER financiero en arXivFinanzas · Idea 2
Predicción de tendencias de mercado
Usa repositorios de datos financieros para entrenar modelos que pronostiquen precios, volatilidad o señales de riesgo crediticio.
Datasets financieros para MLEducación
Educación · Idea 1
Modelos de evaluación automática de desempeño estudiantil
Entrena ML para analizar patrones de resultados educativos y predecir factores asociados con el éxito académico o abandono escolar.
Dataset FineWeb-EduEducación · Idea 2
Sistema de recomendaciones de aprendizaje personalizado
Entrena modelos de recomendación para adaptar contenidos según el estilo de aprendizaje de estudiantes, usando datasets de interacciones educativas.
Datasets en KaggleDatos Abiertos
Datos Abiertos · Idea 1
Clasificación de textos en español con datasets abiertos de NLP
Usa repositorios con datos en español para entrenar modelos de clasificación o generación. Ideal para proyectos con impacto en la comunidad hispanohablante.
Dataset hackathon Somos NLPDatos Abiertos · Idea 2
Generación de datos sintéticos con ML para entrenamiento
Entrena modelos generativos con conjuntos de datos de personas sintéticas para crear datasets balanceados o variados para otras tareas de ML.
FinePersonas en Hugging Face