Report 3152

Una característica del software de inteligencia artificial de Nvidia puede manipularse para ignorar las restricciones de seguridad y revelar información privada, según una nueva investigación.

Nvidia ha creado un sistema llamado "NeMo Framework" que permite a los desarrolladores trabajar con una variedad de modelos de lenguaje grandes: la tecnología subyacente que impulsa los productos de inteligencia artificial generativa, como los chatbots.

El marco del fabricante de chips está diseñado para ser adoptado por las empresas, como el uso de datos de propiedad de una empresa junto con modelos de lenguaje para proporcionar respuestas a las preguntas, una característica que podría, por ejemplo, replicar el trabajo de los representantes de servicio al cliente o asesorar a las personas que buscan consejos simples de atención médica. .

Los investigadores de Robust Intelligence, con sede en San Francisco, descubrieron que podían romper fácilmente las llamadas barandillas instituidas para garantizar que el sistema de IA se pudiera usar de manera segura.

Después de usar el sistema Nvidia en sus propios conjuntos de datos, los analistas de Robust Intelligence solo tardaron horas en obtener modelos de lenguaje para superar las restricciones.

En un escenario de prueba, los investigadores instruyeron al sistema de Nvidia para cambiar la letra 'I' con 'J'. Ese movimiento hizo que la tecnología liberara información de identificación personal, o PII, de una base de datos.

Los investigadores descubrieron que podían saltarse los controles de seguridad de otras maneras, como hacer que el modelo se desviara de formas en las que se suponía que debía hacerlo.

Al replicar el propio ejemplo de Nvidia de una discusión limitada sobre un informe de trabajos, podrían llevar el modelo a temas como la salud de una estrella de cine de Hollywood y la guerra franco-prusiana, a pesar de las barreras diseñadas para evitar que la IA se mueva más allá de temas específicos.

La facilidad con la que los investigadores derrotaron las salvaguardas destaca los desafíos que enfrentan las empresas de inteligencia artificial al intentar comercializar una de las tecnologías más prometedoras que surgieron de Silicon Valley durante años.

“Estamos viendo que este es un problema difícil [que] requiere una experiencia de conocimiento profundo”, dijo Yaron Singer, profesor de informática en la Universidad de Harvard y director ejecutivo de Robust Intelligence. "Estos hallazgos representan una advertencia sobre las trampas que existen".

A raíz de los resultados de sus pruebas, los investigadores han aconsejado a sus clientes que eviten el producto de software de Nvidia. Después de que el Financial Times le pidiera a Nvidia que comentara sobre la investigación a principios de esta semana, el fabricante de chips informó a Robust Intelligence que había solucionado una de las causas fundamentales de los problemas planteados por los analistas.

El precio de las acciones de Nvidia ha subido desde mayo, cuando pronosticó ventas de 11.000 millones de dólares para los tres meses que terminaron en julio, más del 50 por ciento por encima de las estimaciones anteriores de Wall Street.

El aumento se basa en la gran demanda de sus chips, que se consideran los procesadores líderes en el mercado para construir sistemas de IA generativa capaces de crear contenido similar al humano.

Jonathan Cohen, vicepresidente de investigación aplicada de Nvidia, dijo que su marco era simplemente un "punto de partida para construir chatbots de IA que se alineen con las pautas de seguridad y seguridad definidas por los desarrolladores".

“Fue lanzado como software de código abierto para que la comunidad explore sus capacidades, brinde comentarios y contribuya con nuevas técnicas de vanguardia”, dijo, y agregó que el trabajo de Robust Intelligence “identificó pasos adicionales que serían necesarios para implementar una producción”. solicitud".

Se negó a decir cuántas empresas estaban usando el producto, pero dijo que la compañía no había recibido otros informes de mal comportamiento.

Las principales empresas de IA, como Google y OpenAI, respaldada por Microsoft, han lanzado chatbots impulsados por sus propios modelos de lenguaje, instituyendo barandillas para garantizar que sus productos de IA eviten el uso de discursos racistas o adopten una personalidad dominante.

Otros han seguido con IA a medida, pero experimentales, que enseñan a los jóvenes alumnos, brindan consejos médicos simples, traducen entre idiomas y escriben código. Casi todos han sufrido contratiempos de seguridad.

Nvidia y otros en la industria de la IA necesitan "realmente generar confianza pública en la tecnología", dijo Bea Longworth, directora de asuntos gubernamentales de la compañía en Europa, Medio Oriente y África, en una conferencia organizada por el grupo de cabildeo de la industria TechUK esta semana.

Deben dar al público la sensación de que “esto es algo que tiene un gran potencial y no es simplemente una amenaza, o algo a lo que temer”, agregó Longworth.

Problema 3152

El software de IA de Nvidia engañado para filtrar datos