La Universidad Politécnica de Madrid (UPM) ha desarrollado investigaciones innovadoras sobre la generación de datos sintéticos para la investigación del cáncer, abordando la escasez y dificultad de compartir datos médicos reales. Estos estudios presentan metodologías que permiten crear registros artificiales que imitan patrones estadísticos sin comprometer la privacidad de los pacientes. La UPM destaca la importancia de medir tanto la utilidad como la similitud de estos datos con los originales, lo que puede facilitar el desarrollo de herramientas de inteligencia artificial en entornos médicos con pocos datos. Los hallazgos se publicaron en revistas científicas relevantes y tienen el potencial de mejorar la investigación oncológica y otros campos médicos críticos. Para más información, visita el enlace: https://biblioteca.cibeles.net/la-upm-impulsa-datos-sinteticos-para-investigar-cancer/.
La inteligencia artificial (IA) se ha convertido en una herramienta esencial en el ámbito médico, pero su eficacia depende en gran medida de la disponibilidad de datos. Sin embargo, en medicina, estos datos son a menudo escasos y difíciles de compartir debido a consideraciones éticas, legales y de privacidad. Este desafío es especialmente crítico en áreas como el cáncer, las enfermedades raras y los estudios de supervivencia, donde la recopilación de grandes colecciones de pacientes puede resultar complicada.
Frente a este panorama, un equipo de investigadores de la Universidad Politécnica de Madrid (UPM) ha presentado dos estudios complementarios que buscan mejorar la generación de datos sintéticos. Estos registros artificiales tienen la capacidad de replicar patrones estadísticos observados en datos reales sin necesidad de utilizar información específica sobre pacientes. Los autores destacan que no solo es fundamental verificar si estos datos sintéticos pueden entrenar modelos para tareas específicas, sino también evaluar su similitud con los datos originales y la preservación de relaciones complejas entre variables.
El primer estudio, publicado en la revista Neurocomputing, introduce una metodología que permite a los modelos generativos aprender eficazmente incluso con un número reducido de ejemplos reales. La clave radica en implementar un “sesgo inductivo artificial”, que actúa como una guía matemática para orientar al modelo en situaciones con escasez de datos.
Los investigadores combinaron técnicas avanzadas como el aprendizaje por transferencia y el metaaprendizaje, evaluando diversas estrategias tales como el preentrenamiento y el promedio de modelos. Los resultados indican que las estrategias basadas en transferencia de aprendizaje ofrecen un rendimiento superior, mejorando notablemente la calidad de los datos sintéticos generados. En ciertos experimentos, se logró una mejora del 60% en la divergencia de Jensen-Shannon, una métrica que estima cuán similar es la distribución de los datos sintéticos a la distribución real.
El segundo estudio, publicado en el IEEE Journal of Biomedical and Health Informatics, aplica esta metodología al campo biomédico, específicamente en investigaciones relacionadas con el cáncer y análisis de supervivencia. Este tipo de análisis es crucial para estimar tiempos hasta eventos clínicos significativos como recaídas o progresiones de enfermedad, siendo particularmente sensible a la falta de datos. El trabajo demuestra que esta metodología también es efectiva en contextos restrictivos, generando datos sintéticos de alta calidad.
Las implicaciones derivadas de esta línea investigativa son vastas. Patricia Alonso, investigadora asociada a la UPM, señala: “Contar con datos sintéticos fiables puede facilitar tanto el desarrollo como la validación de herramientas IA en hospitales y centros con limitaciones informativas. Además, esto podría favorecer estudios en cohortes pequeñas y abrir nuevas oportunidades para colaboraciones científicas sin comprometer la privacidad del paciente.”
Estos trabajos han sido desarrollados dentro del marco europeo del proyecto GenoMed4All (nº 101017549) y SYNTHEMA (nº 101095530).
Referencias:
Los datos sintéticos son registros artificiales que reproducen patrones estadísticos de datos reales sin copiar pacientes concretos. Son importantes en la investigación médica porque permiten superar las limitaciones de escasez, heterogeneidad y dificultades para compartir datos reales, especialmente en áreas sensibles como el cáncer.
El primer estudio propone una metodología para que los modelos generativos aprendan mejor con pocos ejemplos reales al introducir un "sesgo inductivo artificial". Esto orienta al modelo en escenarios con muy pocos datos, combinando técnicas de transferencia de aprendizaje y metaaprendizaje.
Los resultados mostraron que las estrategias de transferencia de aprendizaje ofrecieron un mejor desempeño, mejorando notablemente la calidad de los datos sintéticos generados, alcanzando hasta un 60% de mejora en la divergencia de Jensen-Shannon.
El segundo estudio aplica la metodología desarrollada para generar datos sintéticos en investigación oncológica y análisis de supervivencia, ayudando a generar datos de alta calidad incluso en condiciones restrictivas donde faltan datos reales.
Patricia Alonso señala que disponer de datos sintéticos fiables puede facilitar el desarrollo y validación de herramientas de IA en hospitales con escasos datos, favorecer estudios en cohortes pequeñas y abrir nuevas vías de colaboración sin comprometer la privacidad de los pacientes.