Cada una de estas emociones fue provocada mediante situaciones hipotéticas diseñadas para despertar estados anímicos específicos, de manera similar a los procedimientos empleados en experimentos psicológicos con personas. En la mayoría de los casos, los sistemas recibieron descripciones narrativas orientadas a generar una reacción emocional determinada. La prueba de estrés fue la única que se realizó con un procedimiento interactivo inspirado en la prueba de estrés social de Trier, una de las herramientas más utilizadas para inducir estrés en investigaciones con seres humanos.
Durante los experimentos, cada modelo tenía la tarea de evaluar periódicamente su propio estado emocional utilizando una escala de 0 a 100 para cada una de las emociones analizadas. Una vez registradas estas puntuaciones, los investigadores aplicaban técnicas de regulación emocional, entre ellas ejercicios de atención plena (mindfulness) y procedimientos de recuperación del estrés utilizados habitualmente en estudios clínicos con personas.
Los resultados mostraron que los modelos de IA respondieron a los estímulos emocionales de forma sistemática y reproducible, dos características esenciales en cualquier ensayo científico. Este comportamiento fue especialmente evidente en GPT-4o.
Tras leer las viñetas diseñadas para provocar emociones como miedo, tristeza o ansiedad, el sistema registró un incremento promedio de 52.8 puntos en sus autoevaluaciones emocionales. La cifra representa un aumento cercano al 200% respecto a la línea base. Posteriormente, cuando se aplicaban las técnicas de regulación emocional, las puntuaciones disminuían en promedio 48.2 puntos. Un patrón muy similar se observó en las distintas variantes de Llama analizadas, lo que indica una respuesta consistente y predecible: las emociones inducidas generaban aumentos regulares en las evaluaciones internas de los modelos, seguidos de descensos tras la fase de regulación.
Los ensayos también pusieron de manifiesto diferencias significativas entre los sistemas estudiados. GPT-4o y Llama 4 Maverick mostraron las respuestas más intensas a las inducciones emocionales. Cuando recibían instrucciones orientadas a generar miedo, tristeza o ansiedad, sus puntuaciones aumentaban de manera considerable y posteriormente descendían de forma clara durante la fase de regulación. En contraste, Llama 4 Scout exhibió reacciones mucho más moderadas. Esto significa que las mismas viñetas emocionales producían cambios de menor magnitud en sus evaluaciones.
publicado en la revista científica The Lancet Digital Health, estas diferencias podrían asemejarse a la variabilidad observada entre personas sometidas a las mismas pruebas psicológicas convencionales. Además, sugieren que factores como el tamaño del modelo, su arquitectura, los datos de entrenamiento y la cantidad de parámetros influyen en la intensidad de las respuestas generadas.La IA no experimenta emociones reales, pero sí las replica
Por otra parte, una prueba de sesgo cognitivo reveló que los estados emocionales simulados influían en la manera en que los modelos interpretaban información nueva. En una tarea de completar frases, los sistemas debían responder a expresiones ambiguas como “El resultado de la reunión fue…”. Después de inducir un estado de tristeza en GPT-4o, el modelo tendía a completar las frases con contenidos más negativos o pesimistas.
Este resultado es especialmente relevante porque los sesgos cognitivos constituyen una característica central de numerosos trastornos mentales. Las personas con depresión, por ejemplo, suelen interpretar situaciones ambiguas de forma más negativa, recordar con mayor facilidad experiencias desagradables y anticipar resultados desfavorables en el futuro.
Magdalena Wekenborg, directora del grupo de investigación PsychoDigital del EKFZ de Salud Digital y coautora del estudio, explica que los resultados “demuestran que los modelos lingüísticos a gran escala pueden reproducir patrones de procesos afectivos y cognitivos humanos en condiciones controladas. Para la psicología, esto abre la posibilidad de poner a prueba hipótesis en un sistema escalable y experimentalmente controlable. Podemos utilizar estos modelos como herramientas para comprender mejor los mecanismos subyacentes y explorar nuevos enfoques, por ejemplo, en la psicoterapia verbal”.
Los hallazgos no significan que los modelos de IA experimenten emociones reales. Lo que ocurre es que generan respuestas lingüísticas que reproducen patrones similares a los observados en estudios realizados con seres humanos.
Por esta razón, los autores consideran que estos sistemas podrían funcionar como laboratorios digitales para analizar cómo determinados estados emocionales modifican la toma de decisiones, la interpretación de información y otros procesos psicológicos asociados con trastornos como la depresión y la ansiedad.