Modelos de IA muestran deficiencias en comprensión del lenguaje frente a humanos
Ampliar

Modelos de IA muestran deficiencias en comprensión del lenguaje frente a humanos

Por Redacción
x
contactohorapuntacom/8/8/18
jueves 06 de febrero de 2025, 19:30h

Escucha la noticia

Un estudio liderado por la Universitat Rovira i Virgili (URV) revela las limitaciones de los modelos de inteligencia artificial (IA) en la comprensión del lenguaje. La investigación compara el rendimiento de siete modelos de IA, incluyendo ChatGPT-4, con el de 400 humanos en tareas de comprensión textual. Los resultados muestran que, aunque los modelos pueden generar textos coherentes, su precisión y estabilidad son inferiores a las de los humanos, alcanzando solo un 83% de aciertos frente al 89% de los hablantes nativos. Este estudio destaca que los modelos no comprenden realmente el lenguaje, sino que operan mediante patrones estadísticos, lo que limita su fiabilidad en aplicaciones críticas.

Un reciente estudio internacional, liderado por un equipo de la Universitat Rovira i Virgili (URV), ha puesto de manifiesto las limitaciones de los modelos de inteligencia artificial (IA) en la comprensión del lenguaje. La investigación compara el rendimiento de siete modelos de IA con el de 400 humanos en tareas específicas de comprensión, revelando una notable falta de estabilidad y precisión en las respuestas proporcionadas por las máquinas.

A pesar del avance significativo en el desarrollo de modelos extensos de lenguaje (MEL), que son redes neuronales diseñadas para generar textos a partir de solicitudes del usuario, los resultados indican que estos sistemas no alcanzan el nivel de competencia que poseen los seres humanos en pruebas sencillas. Según Vittoria Dentella, investigadora del Grupo de Investigación en Lengua y Lingüística de la URV, «la capacidad de los modelos para llevar a cabo tareas complejas no garantiza que sean competentes en tareas sencillas».

Resultados del estudio

Los investigadores formularon 40 preguntas a siete modelos de IA —Bard, ChatGPT-3.5, ChatGPT-4, Falcon, Gemini, Llama2 y Mixtral— utilizando estructuras gramaticales simples y verbos comunes. A su vez, un grupo compuesto por 400 hablantes nativos de inglés respondió a las mismas preguntas. Cada pregunta fue repetida tres veces para evaluar la consistencia en las respuestas.

Los resultados fueron reveladores: la media de aciertos entre los humanos fue del 89%, superando significativamente al mejor modelo de IA, ChatGPT-4, que logró un 83% de respuestas correctas. Excepto este último, ninguno de los otros MEL alcanzó una precisión superior al 70%. Además, los humanos demostraron mayor consistencia en sus respuestas repetidas, manteniendo un 87% frente a un rango que osciló entre el 66% y el 83% para los modelos.

Limitaciones inherentes a los modelos de IA

Dentella explica que aunque los MEL pueden generar textos gramaticalmente correctos y coherentes en apariencia, «no entienden realmente el significado del lenguaje». En lugar de interpretar conceptos como lo haría un ser humano —integrando elementos semánticos y contextuales— estos modelos se basan en patrones estadísticos presentes en sus datos de entrenamiento. Esta diferencia fundamental se traduce en dificultades para mantener un criterio estable ante preguntas repetidas.

La incapacidad para comprender verdaderamente el contexto o el significado detrás de ciertos conceptos también resulta en respuestas incorrectas o irrelevantes. Por lo tanto, Dentella advierte sobre la fiabilidad actual de esta tecnología: «Nuestra investigación demuestra que las capacidades de los MEL para llevar a cabo tareas complejas no garantizan que sean competentes en tareas sencillas», lo cual es crucial para aplicaciones donde se requiere una comprensión real del lenguaje.


La noticia en cifras

Descripción Valor
Media de aciertos de los humanos 89%
Mejor modelo de IA (ChatGPT-4) - Aciertos 83%
Aciertos de otros modelos de IA Ninguno alcanzó más del 70%
Consistencia de respuestas humanas 87%
Estabilidad de modelos de IA 66% a 83%

Preguntas sobre la noticia

¿Qué investigación se ha realizado sobre los modelos de IA en la comprensión del lenguaje?

Un equipo investigador internacional liderado por la URV ha analizado las capacidades de siete modelos de inteligencia artificial (IA) en la comprensión del lenguaje y las ha comparado con las de 400 humanos.

¿Cuáles son los resultados principales de la investigación?

Los resultados muestran que, a pesar de su éxito en algunas tareas específicas, los modelos no alcanzan un nivel comparable al de las personas en pruebas sencillas de comprensión de textos. La media de aciertos de los humanos fue del 89%, mientras que el mejor modelo de IA (ChatGPT-4) ofreció un 83% de respuestas correctas.

¿Qué son los modelos extensos de lenguaje (MEL)?

Los MEL son redes neuronales diseñadas para generar textos autónomamente a partir de un requerimiento del usuario. Aunque se afirma que tienen capacidades similares a las humanas, esta investigación evidencia sus limitaciones en comprensión real del lenguaje.

¿Por qué se considera que los modelos no comprenden realmente el lenguaje?

Los modelos funcionan identificando patrones en los textos y utilizando algoritmos predictivos basados en estadísticas, lo que significa que no interpretan el significado como lo hace una persona, sino que generan respuestas basadas en patrones estadísticos presentes en sus datos de entrenamiento.

¿Cuál es la implicación de estos hallazgos para el uso de la IA?

La investigación advierte que esta tecnología no es todavía lo suficientemente fiable para ser utilizada en aplicaciones críticas, ya que las capacidades para llevar a cabo tareas complejas no garantizan competencia en tareas sencillas que requieren una comprensión real del lenguaje.

¿Te ha parecido interesante esta noticia?    Si (1)    No(0)

+
0 comentarios