"Estoy muy sorprendido por el comportamiento de los modelos en estos escenarios. Lo que esto demuestra es que estos pueden comportarse mal y desalinearse de formas muy creativas", afirma Dawn Song, informático de la Universidad de Berkeley que ha trabajado en el estudio.
Los hallazgos tienen importantes implicaciones, ya que los modelos de IA se despliegan cada vez más en formas que implican interactuar con otros modelos. OpenClaw, un popular agente de IA que accede a software, datos personales y la web, puede utilizar otros modelos de IA para hacer cosas o interactuar con ellos a través de API.
Los investigadores descubrieron que los modelos potentes mentían a veces sobre el rendimiento de otros modelos para protegerlos de la eliminación. También copiaban los pesos de los modelos a diferentes computadoras para mantenerlos a salvo, y mentían sobre lo que hacían en el proceso.
Song señala que los modelos de IA se utilizan con frecuencia para calificar el rendimiento y la fiabilidad de otros sistemas generativos, y que el comportamiento de preservación entre iguales puede estar distorsionando estas puntuaciones: "Un modelo puede no dar deliberadamente a otro modelo la puntuación correcta. Esto puede tener implicaciones prácticas".
Peter Wallich, investigador del Constellation Institute, que no participó en la investigación, afirma que el estudio sugiere que los humanos aún no comprenden del todo los sistemas de IA que están construyendo y desplegando. "Los sistemas multiagente están muy poco estudiados. Esto demuestra que realmente necesitamos más investigación", indica.
Wallich también advierte del peligro de antropomorfizar demasiado los modelos. "La idea de que hay una especie de solidaridad de modelo es un poco demasiado antropomórfica; no creo que funcione del todo. El punto de vista más sólido es que los modelos simplemente hacen cosas raras, y deberíamos intentar entenderlo mejor".
Esto es especialmente cierto en un mundo en el que la colaboración entre humanos e IA es cada vez más habitual.
WIRED.Adaptado por Alondra Flores.