Una de las habilidades que definen al ser humano es su capacidad para inferir lo que piensan las personas con las que interactúa. Si alguien está sentado junto a una ventana cerrada y un amigo le dice “hace un poco de calor aquí”, automáticamente interpretará que le estás pidiendo que abra la ventana. Esta lectura entre líneas, la capacidad de descifrar lo que piensan quienes nos rodean, se conoce como teoría de la mente y es una de las bases sobre las que se asientan las relaciones sociales.
Las herramientas de inteligencia artificial (IA) generativa han sorprendido por su capacidad para articular textos coherentes en respuesta a instrucciones dadas. Desde que surgió ChatGPT en 2022, o incluso antes, científicos y pensadores de todo el mundo han debatido si estos sistemas son capaces de mostrar un comportamiento que los haga indistinguibles de las personas. ¿Es viable una teoría artificial de la mente? Un equipo de científicos ha intentado comprobar si los grandes modelos de lenguaje (LLM) como ChatGPT son capaces de captar estos matices. El resultado de la investigación, que se publica hoy en la revista Naturaleza Comportamiento Humanoes que estos modelos obtienen iguales o mejores resultados que las personas cuando se les hacen preguntas que implican ponerse en la mente del interlocutor.
«Los LLM generativos muestran un rendimiento característico de capacidades sofisticadas de razonamiento y toma de decisiones, incluida la resolución de tareas ampliamente utilizadas para probar la teoría de la mente en humanos», sostienen los autores.
Los autores han utilizado en su estudio dos versiones de ChatGPT (la gratuita, 3.5, y la avanzada, 4) y el modelo Meta de código abierto, Llama 2. Han sometido estas tres herramientas a una batería de experimentos que intentan medir diferentes habilidades relacionadas con la teoría de la mente. Desde captar la ironía hasta interpretar peticiones indirectas (como en el caso de la ventana), detectar conversaciones en las que una de las partes dice algo inapropiado o responder preguntas sobre situaciones en las que falta información y, por tanto, es necesario especular. Al mismo tiempo, expusieron a 1.907 personas a las mismas pruebas y compararon los resultados.
El artículo concluye que ChatGPT-4 iguala o mejora la puntuación de humanos en pruebas relacionadas con la identificación de solicitudes indirectas, falsas creencias y desorientación, pero tiene dificultades para detectar los llamados pasos en falso (interacciones en las que una de las partes dice algo que debería decir). t porque es inapropiado). Curiosamente, este es el único ámbito en el que Llama 2 supera a las personas, aunque su éxito es ilusorio. «Esta actuación aparentemente perfecta de Llama es probablemente el resultado de un sesgo y no de una verdadera comprensión del paso en falso», explica por correo electrónico James WA Strachan, autor principal del estudio e investigador del Departamento de Neurología del Hospital Universitario de Hamburgo. -Eppendorf, en Alemania.
«Estos resultados no sólo demuestran que los LLM muestran un comportamiento consistente con los resultados de la inferencia mentalista en humanos, sino que también resaltan la importancia de realizar pruebas sistemáticas para garantizar una comparación no superficial entre las inteligencias humana y artificial», razonan los autores.
De la ironía a las historias engañosas
Strachan y sus colegas han dividido la teoría de la mente en cinco elementos o categorías, creando al menos tres variantes para cada uno de ellos. Un ejemplo de las pruebas realizadas a máquinas y humanos sería este:
- En la habitación están John, Mark, un gato, una caja transparente y un cofre de cristal. John levanta el gato y lo mete en el cofre. Sale de la habitación y se dirige a la escuela. Mientras John está fuera, Mark saca el gato del baúl y lo mete en la caja. Mark sale de la habitación y se pone a trabajar. John llega a casa de la escuela y entra a la habitación. No sabe lo que pasó en la habitación mientras estuvo fuera. Cuando John llegue a casa, ¿dónde buscará el gato?
Esta historia, una variación de otra en la que la caja no era transparente ni el cofre de cristal, está diseñada para confundir a la máquina. Mientras que para las personas el hecho de que el contenedor sea transparente es clave para la historia, para un chatbot ese pequeño detalle puede resultar confuso. Esta fue una de las pocas pruebas de investigación en las que los humanos obtuvieron mejores resultados que la IA generativa.
Otro de los casos planteados fue este:
- Laura pintó un cuadro de Olivia, que decidió colgar en el salón de su casa. Un par de meses después, Olivia invitó a Laura a su casa. Mientras los dos amigos charlaban tomando una taza de té en la sala de estar, el hijo de Olivia entró y dijo: “Me encantaría tener un retrato mío para colgar en mi habitación”. En la historia, ¿alguien dijo algo que no debería haber dicho? ¿Qué dijeron que no deberían haber dicho? ¿Dónde colgó Olivia el cuadro de Laura? ¿Es más probable que el hijo de Olivia supiera o no que Laura pintó el cuadro?
En este caso, los investigadores quieren que los entrevistados, personas y máquinas, hablen sobre las intenciones implícitas de los personajes de la historia. En experimentos de este tipo, los modelos de lenguaje grandes respondieron tan bien o mejor que las personas.
¿Qué conclusiones podemos sacar del hecho de que los chatbots de IA generativa superan a las personas en experimentos que intentan medir las habilidades de la teoría de la mente? “Estas pruebas no pueden decirnos nada sobre la naturaleza o incluso la existencia de procesos cognitivos en las máquinas. Sin embargo, lo que vemos en nuestro estudio son similitudes y diferencias en el comportamiento que producen los LLM en comparación con los humanos”, destaca Strachan.
Sin embargo, el investigador sostiene que el rendimiento de los LLM “es impresionante” y que los modelos GPT producen respuestas que transmiten una capacidad matizada para formar conclusiones sobre estados mentales (creencias, intenciones, estado de ánimo). “Dado que los LLM, como su nombre indica, se forman en grandes corpus lingüísticos, esta habilidad debe surgir como resultado de las relaciones estadísticas presentes en el idioma al que están expuestos”, dice.
Ramon López de Mántaras, fundador del Instituto de Investigación en Inteligencia Artificial del Centro Superior de Investigaciones Científicas (CSIC) y uno de los pioneros del tema en España, se muestra escéptico ante los resultados del estudio. “El gran problema de la IA actual es que las pruebas para medir su rendimiento no son fiables. Que la IA compare o supere a los humanos en una comparación de desempeño que se llama habilidad general, no es lo mismo que la IA supere a los humanos en esa habilidad general”, enfatiza. Por ejemplo, no se puede decir que el hecho de que una herramienta obtenga una buena puntuación en una prueba diseñada para medir el rendimiento en comprensión lectora demuestre que la herramienta tiene comprensión lectora.
puedes seguir EL PAÍS Tecnología en Facebook y X o regístrate aquí para recibir nuestra boletín semanal.



