Por qué es tan peligroso que la inteligencia artificial aprenda a mentir: “Nos engañarán como lo hacen los ricos”

Un jugador de póquer tiene malas cartas pero hace la apuesta más grande. El resto de jugadores se asustan por el farol y conceden la victoria. Un comprador quiere negociar un producto, pero no muestra interés. Primero mira otras cosas y pregunta. Luego, sin mucha intención, pregunta por lo que realmente quiere para conseguir un precio más barato. Estos dos ejemplos reales no son de humanos, sino de modelos fabricados con inteligencia artificial (IA). Un nuevo artículo científico titulado Engaños de IA: un estudio de ejemplos, riesgos y posibles soluciones en la revista patrones analiza casos conocidos de modelos que han mentido, disimulado o halagado a humanos para conseguir sus objetivos. Los robots no son conscientes de nada y sólo buscan la mejor manera de conseguir lo que buscan, pero los autores creen que estos incipientes engaños auguran resultados terribles si la legislación no limita las opciones de la IA.

“En este momento, mi mayor temor sobre el engaño de la IA es que una IA autónoma y superinteligente utilice sus capacidades de engaño para formar una coalición cada vez mayor de aliados humanos y, finalmente, utilice esta coalición para ascender al poder, en pos del objetivo a largo plazo de una objetivo misterioso que no se conocería hasta después del hecho”, dice Peter S. Park, investigador postdoctoral en Seguridad Existencial de IA en el Instituto Tecnológico de Massachusetts (MIT) y uno de los autores principales del artículo.

Ese gran miedo a Park es una suposición, pero ya lo hemos visto en una IA programada para un juego. Meta anunció en 2022 que su modelo Cicero había vencido a sus rivales humanos por Diplomaciaun juego de estrategia que mezcla detalles del riesgoEl póquer y el programa de televisión. Sobrevivientes, en palabras de la empresa. Como en la diplomacia real, uno de los recursos es mentir y disimular. Los empleados de Meta notaron que cuando Cicerón mentía, sus jugadas empeoraban y lo programaron para ser más honesto. Pero realmente no lo era.

Peter S. Park y sus coautores también pusieron a prueba la honestidad de Cicerón. “Correspondía a los autores del artículo corregir la falsa declaración de Meta sobre la supuesta honestidad de Cicerón que había sido publicada en «Ciencia.» El contexto político del juego. Diplomacia Es un riesgo mucho menor que los contextos reales con sus elecciones y conflictos militares. Pero hay tres hechos a tener en cuenta, dice Park: “Primero, Meta entrenó con éxito su IA para sobresalir en la búsqueda del poder político, aunque sea en un juego. En segundo lugar, Meta intentó, pero fracasó, entrenar esa IA para ser honesto. Y en tercer lugar, dependía de científicos externos independientes, mucho después del hecho, desacreditar la falsedad de Meta de que su IA en busca de poder era supuestamente honesta. La combinación de estos tres hechos es, en mi opinión, motivo suficiente de preocupación”, según Park.

Como mienten realmente

Los investigadores creen que hay varias formas en las que modelos específicos de IA han demostrado que pueden engañar eficazmente: pueden manipular como en la diplomacia, fingir diciendo que harán algo cuando saben que no lo harán, farolear como en el póquer, regatear en las negociaciones, hacerse el muerto para evitar ser detectado o engañar a los revisores humanos haciéndoles creer que la IA ha hecho lo que debía cuando no lo hizo.

No todos los tipos de engaño implican este tipo de conocimiento. En ocasiones, y sin querer, los modelos de IA son “aduladores” y simplemente siguen la opinión que cada usuario señala en sus preguntas: “Los halagos podrían llevar a creencias falsas persistentes en los humanos. Las afirmaciones halagadoras están diseñadas específicamente para atraer al usuario. Cuando un usuario encuentra estas respuestas, es menos probable que verifique los hechos. «Esto, a largo plazo, podría dar lugar a creencias alejadas de la verdad», escriben los autores en el artículo.

Nadie sabe con certeza cómo hacer que estos modelos no engañen, dice Park: «Con nuestro nivel actual de comprensión científica, nadie puede entrenar de manera confiable grandes modelos lingüísticos para que no engañen». Además, hay muchos ingenieros en muchas empresas dedicados a crear modelos diferentes y más potentes. No todo el mundo tiene el mismo interés inicial en que sus robots sean honestos: “Algunos ingenieros se toman muy en serio el riesgo de engaño de la IA, hasta el punto de abogar o implementar medidas de seguridad de la IA. Otros ingenieros no se lo toman tan en serio y creen que aplicar un proceso de prueba y error será suficiente para avanzar hacia una IA segura y que no mienta. Y todavía hay otros que se niegan incluso a aceptar que existe el riesgo de engaño por parte de la IA”, dice Park.

Lo usarán para aumentar su poder.

En el artículo comparan la IA superinteligente con la forma en que los ricos aspiran a obtener nuevas cuotas de poder: “A lo largo de la historia, los actores ricos han utilizado el engaño para aumentar su poder”, escriben. La forma en que Park aclara esto sirve para comprender mejor cuán subrepticio puede ser el papel de una IA que quiere ganar poder: “Las empresas de IA están en una carrera descontrolada para crear una IA superinteligente que supere a los humanos en la mayor parte de los aspectos económicos y estratégicos. capacidades relevantes. Una IA de este tipo, como los ricos, sería experta en llevar a cabo planes a largo plazo al servicio de buscar engañosamente el poder sobre diversos sectores de la sociedad, como influir en los políticos con información incompleta o falsa, financiar la desinformación en los medios o los investigadores. y evadir la responsabilidad utilizando las leyes. Así como el dinero se traduce en poder, muchas capacidades de la IA, como el engaño, también se traducen en poder”, explica Park.

No todos los académicos comparten este nivel de miedo. El profesor de la Universidad de Edimburgo Michael Rovatsos, en declaraciones a SMC España, cree que los peligros a largo plazo son demasiado especulativos: “No estoy tan convencido de que la capacidad de engaño cree un riesgo de pérdida de control sobre los sistemas de IA. , si se aplica el rigor adecuado en su diseño; El verdadero problema es que actualmente esto no es así y se lanzan sistemas al mercado sin estos controles de seguridad. «La discusión sobre las implicaciones a largo plazo de las capacidades engañosas que plantea el artículo es muy especulativa y hace muchas suposiciones adicionales sobre cosas que pueden suceder o no».

La solución que propone el artículo para que estos sistemas no superen a sus creadores es la legislación. La UE asigna a cada sistema de IA uno de cuatro niveles de riesgo: mínimo, limitado, alto e inaceptable. Los sistemas con riesgo inaceptable están prohibidos, mientras que los sistemas con alto riesgo están sujetos a requisitos especiales. «Sostenemos que el engaño de la IA presenta una amplia gama de riesgos para la sociedad, por lo que deberían ser tratados por defecto como de alto riesgo o riesgo inaceptable», dice Park.

puedes seguir EL PAÍS Tecnología en Facebook y X o regístrate aquí para recibir nuestra boletín semanal.

Más información

Por qué es tan peligroso que la inteligencia artificial aprenda a mentir: “Nos engañarán como lo hacen los ricos” | Tecnología

Como mienten realmente

Lo usarán para aumentar su poder.

Mundo Honduras

Entrada siguiente

La mejor solución para sustituir a VMware en Panamá: Scale Computing Platform

Destacados

Entretenimiento

Top Esta semana

Reino Unido: Chris Brown en tribunal antes de juicio por agresión

De la Tradición a la Pasarela: Influencias Culturales Clave

¿Qué es un Fashion Buyer?

Betty Boop y Mondrian: Domínio Público en 2026

Chief Editor

Johny Watshon

Quick Links

Como mienten realmente

Lo usarán para aumentar su poder.

Mundo Honduras

Puede que te guste

Destacados

Entretenimiento

Top Esta semana

Chief Editor

Johny Watshon

Quick Links