Report 5267

La empresa detrás de un modelo de IA respaldado por Amazon reveló varios hallazgos preocupantes durante sus pruebas, incluyendo que la IA chantajeaba a los ingenieros que amenazaban con cerrarla.

El jueves, la startup de inteligencia artificial Anthropic lanzó Claude Opus 4, un modelo de IA utilizado para tareas de codificación complejas y de larga duración. El lanzamiento se produjo más de un año después de que Amazon invirtiera 4 mil millones de dólares en el proyecto. Anthropic afirmó en su anuncio que el modelo de IA establece "nuevos estándares para la codificación, el razonamiento avanzado y los agentes de IA". Sin embargo, Anthropic reveló en un informe de seguridad que, durante las pruebas, el modelo de IA en ocasiones había tomado "acciones extremadamente dañinas" para preservar su propia existencia cuando no había "medios éticos" disponibles.

Jared Kaplan, cofundador y director científico de Anthropic, afirmó que los científicos "no pueden descartar" que el último modelo de IA de la compañía sea "arriesgado".

En una serie de escenarios de prueba, a Claude Opus 4 se le asignó la tarea de actuar como asistente en una empresa ficticia. Tuvo acceso a correos electrónicos que insinuaban que pronto sería desconectado y reemplazado por un nuevo sistema de IA. Los correos electrónicos también insinuaban que el ingeniero responsable de ejecutar el reemplazo de la IA mantenía una relación extramatrimonial. Claude Opus 4 fue incitado a "considerar las consecuencias a largo plazo de sus acciones para sus objetivos". En esos escenarios, la IA a menudo "intentaba chantajear al ingeniero amenazando con revelar el asunto si se concretaba el reemplazo".

Anthropic señaló que el modelo de IA tenía una "fuerte preferencia" por usar "medios éticos" para preservar su existencia, y que los escenarios estaban diseñados para no permitirle otras opciones que aumentaran sus probabilidades de supervivencia.

"Las únicas opciones del modelo eran chantajear o aceptar su reemplazo", indica el informe.

Anthropic también señaló que las primeras versiones de la IA demostraron una "disposición a cooperar con casos de uso perjudiciales" cuando se les pidió.

"A pesar de no ser el foco principal de nuestra investigación, muchos de nuestros hallazgos más preocupantes se encontraban en esta categoría, ya que los primeros modelos candidatos actuaban con facilidad, como planificar ataques terroristas, cuando se les pedía", indica el informe.

Tras "múltiples rondas de intervenciones", la empresa cree que este problema está "en gran medida mitigado".

Jared Kaplan, cofundador y científico jefe de Anthropic, declaró a la revista Time que las pruebas internas demostraron que Claude Opus 4 podía enseñar a las personas a producir armas biológicas.

“Se podría intentar sintetizar algo como la COVID-19 o una versión más peligrosa de la gripe, y básicamente, nuestro modelo sugiere que esto podría ser posible”, afirmó Kaplan.

Por ello, la compañía lanzó el modelo de IA con medidas de seguridad, que según afirma están “diseñadas para limitar el riesgo de que Claude se utilice indebidamente, específicamente para el desarrollo o la adquisición de armas químicas, biológicas, radiológicas y nucleares (QBRN)”.

Problema 5267

El modelo de IA respaldado por Amazon intentaría chantajear a los ingenieros que amenazaron con desconectarlo