Un reciente estudio internacional, liderado por un equipo de la Universitat Rovira i Virgili (URV), ha puesto de manifiesto las limitaciones de los modelos de inteligencia artificial (IA) en la comprensión del lenguaje. La investigación compara el rendimiento de siete modelos de IA con el de 400 humanos en tareas específicas de comprensión, revelando una notable falta de estabilidad y precisión en las respuestas proporcionadas por las máquinas.
A pesar del avance significativo en el desarrollo de modelos extensos de lenguaje (MEL), que son redes neuronales diseñadas para generar textos a partir de solicitudes del usuario, los resultados indican que estos sistemas no alcanzan el nivel de competencia que poseen los seres humanos en pruebas sencillas. Según Vittoria Dentella, investigadora del Grupo de Investigación en Lengua y Lingüística de la URV, «la capacidad de los modelos para llevar a cabo tareas complejas no garantiza que sean competentes en tareas sencillas».
Resultados del estudio
Los investigadores formularon 40 preguntas a siete modelos de IA —Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 y Mixtral— utilizando estructuras gramaticales simples y verbos comunes. A su vez, un grupo compuesto por 400 hablantes nativos de inglés respondió a las mismas preguntas. Cada pregunta fue repetida tres veces para evaluar la consistencia en las respuestas.
Los resultados fueron reveladores: la media de aciertos entre los humanos fue del 89%, superando significativamente al mejor modelo de IA, ChatGPT-4, que logró un 83% de respuestas correctas. Excepto este último, ninguno de los otros MEL alcanzó una precisión superior al 70%. Además, los humanos demostraron mayor consistencia en sus respuestas repetidas, manteniendo un 87% frente a un rango que osciló entre el 66% y el 83% para los modelos.
Limitaciones inherentes a los modelos de IA
Dentella explica que aunque los MEL pueden generar textos gramaticalmente correctos y coherentes en apariencia, «no entienden realmente el significado del lenguaje». En lugar de interpretar conceptos como lo haría un ser humano —integrando elementos semánticos y contextuales— estos modelos se basan en patrones estadísticos presentes en sus datos de entrenamiento. Esta diferencia fundamental se traduce en dificultades para mantener un criterio estable ante preguntas repetidas.
La incapacidad para comprender verdaderamente el contexto o el significado detrás de ciertos conceptos también resulta en respuestas incorrectas o irrelevantes. Por lo tanto, Dentella advierte sobre la fiabilidad actual de esta tecnología: «Nuestra investigación demuestra que las capacidades de los MEL para llevar a cabo tareas complejas no garantizan que sean competentes en tareas sencillas», lo cual es crucial para aplicaciones donde se requiere una comprensión real del lenguaje.
La noticia en cifras
Descripción |
Valor |
Media de aciertos de los humanos |
89% |
Mejor modelo de IA (ChatGPT-4) - Aciertos |
83% |
Aciertos de otros modelos de IA |
Ninguno alcanzó más del 70% |
Consistencia de respuestas humanas |
87% |
Estabilidad de modelos de IA |
66% a 83% |
Preguntas sobre la noticia
¿Qué investigación se ha realizado sobre los modelos de IA en la comprensión del lenguaje?
Un equipo investigador internacional liderado por la URV ha analizado las capacidades de siete modelos de inteligencia artificial (IA) en la comprensión del lenguaje y las ha comparado con las de 400 humanos.
¿Cuáles son los resultados principales de la investigación?
Los resultados muestran que, a pesar de su éxito en algunas tareas específicas, los modelos no alcanzan un nivel comparable al de las personas en pruebas sencillas de comprensión de textos. La media de aciertos de los humanos fue del 89%, mientras que el mejor modelo de IA (ChatGPT-4) ofreció un 83% de respuestas correctas.
¿Qué son los modelos extensos de lenguaje (MEL)?
Los MEL son redes neuronales diseñadas para generar textos autónomamente a partir de un requerimiento del usuario. Aunque se afirma que tienen capacidades similares a las humanas, esta investigación evidencia sus limitaciones en comprensión real del lenguaje.
¿Por qué se considera que los modelos no comprenden realmente el lenguaje?
Los modelos funcionan identificando patrones en los textos y utilizando algoritmos predictivos basados en estadísticas, lo que significa que no interpretan el significado como lo hace una persona, sino que generan respuestas basadas en patrones estadísticos presentes en sus datos de entrenamiento.
¿Cuál es la implicación de estos hallazgos para el uso de la IA?
La investigación advierte que esta tecnología no es todavía lo suficientemente fiable para ser utilizada en aplicaciones críticas, ya que las capacidades para llevar a cabo tareas complejas no garantizan competencia en tareas sencillas que requieren una comprensión real del lenguaje.