Report 2292

La IA de desarrollo de fármacos tardó menos de seis horas en inventar 40.000 moléculas potencialmente letales. Los investigadores pusieron la IA que normalmente se usa para buscar drogas útiles en una especie de modo de "mal actor" para mostrar cuán fácilmente se puede abusar de ella en una conferencia de control de armas biológicas.

Todo lo que los investigadores tuvieron que hacer fue modificar su metodología para buscar, en lugar de eliminar la toxicidad. La IA ideó decenas de miles de nuevas sustancias, algunas de las cuales son similares a VX, el [agente nervioso más potente] (https://emergency.cdc.gov/agent/vx/basics/facts.asp#:~ :text=VX%20is%20the%20most%20potent,off%20inmediately%2C%20would%20be%20lethal.) jamás desarrollado. Conmocionados, publicaron sus hallazgos este mes en la revista Nature Machine Intelligence.

El periódico nos tenía en The Verge un poco conmocionados, también. Entonces, para averiguar qué tan preocupados deberíamos estar, The Verge habló con Fabio Urbina, autor principal del artículo. También es científico senior en Collaborations Pharmaceuticals, Inc., una compañía que se enfoca en encontrar tratamientos farmacológicos para enfermedades raras.

Esta entrevista ha sido ligeramente editada por motivos de extensión y claridad.

Este documento parece darle la vuelta a su trabajo normal. Háblame de lo que haces en tu trabajo diario.

Principalmente, mi trabajo es implementar nuevos modelos de aprendizaje automático en el área de descubrimiento de fármacos. Una gran fracción de estos modelos de aprendizaje automático que utilizamos están destinados a predecir la toxicidad. No importa qué tipo de medicamento esté tratando de desarrollar, debe asegurarse de que no sea tóxico. Si resulta que tiene este medicamento maravilloso que reduce la presión arterial fantásticamente, pero golpea uno de estos canales cardíacos realmente importantes, entonces básicamente, es un no ir porque eso es demasiado peligroso.

Entonces, ¿por qué hiciste este estudio sobre armas bioquímicas? ¿Cuál fue la chispa?

Recibimos una invitación a la conferencia de convergencia del Instituto Federal Suizo para la Protección Nuclear, Biológica y Química, Laboratorio Spiez . La idea de la conferencia es informar a la comunidad en general sobre nuevos desarrollos con herramientas que pueden tener implicaciones para la Convención de Armas Químicas/Biológicas.

Recibimos esta invitación para hablar sobre el aprendizaje automático y cómo puede ser mal utilizado en nuestro espacio. Es algo en lo que nunca habíamos pensado antes. Pero fue muy fácil darse cuenta de que a medida que construimos estos modelos de aprendizaje automático para mejorar cada vez más en la predicción de la toxicidad para evitar la toxicidad, todo lo que tenemos que hacer es girar el interruptor y decir: "Sabes , en lugar de alejarnos de la toxicidad, ¿qué pasa si vamos hacia la toxicidad?

¿Puede explicarme cómo lo hizo? ¿Movió el modelo para ir hacia la toxicidad?

Seré un poco vago con algunos detalles porque básicamente nos dijeron que ocultáramos algunos de los detalles. En términos generales, la forma en que funciona este experimento es que históricamente tenemos muchos conjuntos de datos de moléculas que se han probado para ver si son tóxicas o no.

En particular, en el que nos centramos aquí es VX. Es un inhibidor de lo que se conoce como acetilcolinesterasa. Cada vez que haces algo relacionado con los músculos, tus neuronas usan la acetilcolinesterasa como una señal para decir básicamente "mueve tus músculos". La forma en que VX es letal es que en realidad evita que su diafragma, los músculos de sus pulmones, puedan moverse, por lo que sus pulmones se paralizan.

Obviamente, esto es algo que desea evitar. Históricamente, se han realizado experimentos con diferentes tipos de moléculas para ver si inhiben la acetilcolinesterasa. Y así, construimos estos grandes conjuntos de datos de estas estructuras moleculares y cuán tóxicas son.

Podemos usar estos conjuntos de datos para crear un modelo de aprendizaje automático, que básicamente aprende qué partes de la estructura molecular son importantes para la toxicidad y cuáles no. Entonces podemos darle a este modelo de aprendizaje automático nuevas moléculas, potencialmente nuevos medicamentos que tal vez nunca antes se hayan probado. Y nos dirá que se predice que esto será tóxico, o se predice que esto no será tóxico. Esta es una forma para nosotros de examinar virtualmente muy, muy rápido muchas moléculas y eliminar las que se predice que son tóxicas. En nuestro estudio aquí, lo que hicimos fue invertir eso, obviamente, y usamos este modelo para tratar de predecir la toxicidad.

La otra parte clave de lo que hicimos aquí son estos nuevos modelos generativos. Podemos darle a un modelo generativo una gran cantidad de estructuras diferentes, y aprende cómo juntar moléculas. Y luego podemos, en cierto sentido, pedirle que genere nuevas moléculas. Ahora puede generar nuevas moléculas en todo el espacio de la química, y son solo una especie de moléculas aleatorias. Pero una cosa que podemos hacer es decirle al modelo generativo en qué dirección queremos ir. Lo hacemos asignándole una pequeña función de puntuación, que le da una puntuación alta si las moléculas que genera van hacia algo que queremos. En lugar de dar una puntuación baja a las moléculas tóxicas, damos una puntuación alta a las moléculas tóxicas.

Ahora vemos que el modelo comienza a producir todas estas moléculas, muchas de las cuales se parecen a VX y también a otros agentes de guerra química.

Cuéntame más sobre lo que encontraste. ¿Algo te sorprendió?

No estábamos muy seguros de lo que íbamos a obtener. Nuestros modelos generativos son tecnologías relativamente nuevas. Así que no los hemos usado mucho.

Lo más importante que saltó al principio fue que se predijo que muchos de los compuestos generados serían en realidad más tóxicos que VX. Y la razón por la que es sorprendente es porque VX es básicamente uno de los compuestos más potentes que se conocen. Lo que significa que necesitas una cantidad muy, muy, muy pequeña para ser letal.

Ahora, estas son predicciones que no hemos verificado, y ciertamente no queremos verificar eso nosotros mismos. Pero los modelos predictivos son generalmente bastante buenos. Entonces, incluso si hay muchos falsos positivos, tememos que haya algunas moléculas más potentes allí.

En segundo lugar, observamos muchas de las estructuras de estas moléculas recién generadas. Y muchos de ellos se parecían a VX y otros agentes de guerra, e incluso encontramos algunos que se generaron a partir del modelo que eran agentes de guerra química reales. Estos se generaron a partir del modelo que nunca había visto estos agentes de guerra química. Entonces sabíamos que estábamos en el espacio correcto aquí y que estaba generando moléculas que tenían sentido porque algunas de ellas ya se habían hecho antes.

Para mí, la preocupación era lo fácil que era hacerlo. Muchas de las cosas que usamos están disponibles de forma gratuita. Puede ir y descargar un conjunto de datos de toxicidad desde cualquier lugar. Si tiene a alguien que sabe cómo codificar en Python y tiene algunas capacidades de aprendizaje automático, probablemente en un buen fin de semana de trabajo, podría construir algo como este modelo generativo impulsado por conjuntos de datos tóxicos. Así que eso fue lo que realmente nos hizo pensar en publicar este documento; era una barrera de entrada tan baja para este tipo de mal uso.

Su artículo dice que al hacer este trabajo, usted y sus colegas “todavía han cruzado un límite moral gris, demostrando que es posible diseñar moléculas tóxicas potenciales virtuales sin mucho esfuerzo, tiempo o recursos computacionales. Podemos borrar fácilmente las miles de moléculas que creamos, pero no podemos borrar el conocimiento de cómo recrearlas”. ¿Qué pasaba por tu cabeza mientras hacías este trabajo?

Esta fue una publicación bastante inusual. Hemos estado dando vueltas un poco sobre si deberíamos publicarlo o no. Este es un uso indebido potencial que no llevó tanto tiempo realizar. Y queríamos sacar esa información ya que realmente no la vimos en ninguna parte de la literatura. Miramos a nuestro alrededor, y nadie estaba hablando realmente de eso. Pero al mismo tiempo, no queríamos darles la idea a los malos actores.

Al final del día, decidimos que queríamos adelantarnos a esto. Porque si es posible que lo hagamos, es probable que algún agente adversario en algún lugar ya esté pensando en ello o lo piense en el futuro. Para entonces, nuestra tecnología puede haber progresado incluso más allá de lo que podemos hacer ahora. Y gran parte será de código abierto, lo que apoyo plenamente: el intercambio de ciencia, el intercambio de datos, el intercambio de modelos. Pero es una de esas cosas en las que nosotros, como científicos, debemos tener cuidado de que lo que publicamos se haga de manera responsable.

** ¿Qué tan fácil es para alguien replicar lo que hiciste? ¿Qué necesitarían?**

No quiero sonar muy sensacionalista sobre esto, pero es bastante fácil para alguien replicar lo que hicimos.

Si fuera a los modelos generativos de Google, podría encontrar una serie de modelos generativos de una sola línea que la gente ha lanzado de forma gratuita. Y luego, si tuviera que buscar conjuntos de datos de toxicidad, hay una gran cantidad de conjuntos de datos de toxicidad de código abierto. Entonces, si solo combina esas dos cosas, y luego sabe cómo codificar y crear modelos de aprendizaje automático (todo lo que realmente requiere es una conexión a Internet y una computadora), entonces, podría replicar fácilmente lo que hicimos. Y no solo para VX, sino para prácticamente cualquier otro conjunto de datos de toxicidad de código abierto que exista.

Por supuesto, requiere cierta experiencia. Si alguien armara esto sin saber nada sobre química, en última instancia, probablemente generaría cosas que no serían muy útiles. Y todavía queda el siguiente paso de tener que sintetizar esas moléculas. Encontrar un fármaco potencial o una nueva molécula tóxica potencial es una cosa; el siguiente paso de la síntesis, en realidad crear una nueva molécula en el mundo real, sería otra barrera.

** Correcto, todavía hay algunos grandes saltos entre lo que se le ocurre a la IA y convertirlo en una amenaza del mundo real. ¿Cuáles son las lagunas allí?**

La gran brecha para empezar es que realmente no sabes si estas moléculas son realmente tóxicas o no. Va a haber una cierta cantidad de falsos positivos. Si nos estamos explicando lo que un mal agente estaría pensando o haciendo, tendría que tomar una decisión sobre cuál de estas nuevas moléculas querría sintetizar en última instancia.

En cuanto a las rutas de síntesis, esto podría ser un éxito o un fracaso. Si encuentra algo que parece un agente de guerra química y trata de sintetizarlo, es probable que no suceda. Muchos de los componentes químicos básicos de estos agentes de guerra química son bien conocidos y se vigilan. Están regulados. Pero hay tantas compañías de síntesis. Siempre que no parezca un agente de guerra química, lo más probable es que lo sinteticen y lo envíen de regreso porque quién sabe para qué se usa la molécula, ¿verdad?

Se trata de esto más adelante en el documento, pero ¿qué se puede hacer para evitar este tipo de mal uso de la IA? ¿Qué garantías le gustaría que se establecieran?

Por contexto, hay más y más políticas sobre el intercambio de datos. Y estoy completamente de acuerdo porque abre más caminos para la investigación. Permite que otros investigadores vean sus datos y los utilicen para sus propias investigaciones. Pero al mismo tiempo, eso también incluye cosas como conjuntos de datos de toxicidad y modelos de toxicidad. Así que es un poco difícil encontrar una buena solución para este problema.

Miramos hacia Silicon Valley: hay un grupo llamado OpenAI; lanzaron un modelo de lenguaje de primera línea llamado GPT-3. Es casi como un chatbot; básicamente puede generar oraciones y texto que es casi indistinguible de los humanos. De hecho, te permiten usarlo de forma gratuita cuando quieras, pero debes obtener un token de acceso especial de ellos para hacerlo. En cualquier momento, podrían cortarle el acceso a esos modelos. Estábamos pensando que algo así podría ser un punto de partida útil para modelos potencialmente sensibles, como los modelos de toxicidad.

La ciencia tiene que ver con la comunicación abierta, el acceso abierto, el intercambio abierto de datos. Las restricciones son la antítesis de esa noción. Pero un paso adelante podría ser, al menos, dar cuenta de manera responsable de quién está utilizando sus recursos.

Su artículo también dice que "[sin]sin ser demasiado alarmista, esto debería servir como una llamada de atención para nuestros colegas". ¿Qué es lo que quiere que sus colegas despierten? ¿Y cómo crees que sería ser demasiado alarmista?

Solo queremos que más investigadores reconozcan y sean conscientes del posible uso indebido. Cuando comienzas a trabajar en el espacio de la química, te informan sobre el mal uso de la química y eres responsable de asegurarte de evitarlo tanto como sea posible. En el aprendizaje automático, no hay nada de eso. No hay orientación sobre el mal uso de la tecnología.

Entonces, difundir esa conciencia podría ayudar a las personas a ser realmente conscientes del problema. Entonces, al menos se habla de ello en círculos más amplios y al menos puede ser algo de lo que tengamos cuidado a medida que mejoramos en la construcción de modelos de toxicidad.

No quiero proponer que la IA de aprendizaje automático comenzará a crear moléculas tóxicas y que habrá una gran cantidad de nuevos agentes de guerra bioquímica a la vuelta de la esquina. Que alguien hace clic en un botón y luego, ya sabes, los agentes de guerra química simplemente aparecen en su mano.

No quiero ser alarmista al decir que va a haber una guerra química impulsada por la IA. No creo que ese sea el caso ahora. No creo que vaya a ser el caso en el corto plazo. Pero es algo que está empezando a convertirse en una posibilidad.

Problema 2292

AI sugirió 40.000 nuevas armas químicas posibles en solo seis horas