Report 2299

SAN FRANCISCO — En OpenAI, uno de los laboratorios de inteligencia artificial más ambiciosos del mundo, los investigadores están desarrollando tecnología que le permite crear imágenes digitales simplemente describiendo lo que quiere ver.

Lo llaman DALL-E en un guiño a ambos “WALL-E”, la película animada de 2008 sobre un robot autónomo , y Salvador Dalí, el pintor surrealista.

OpenAI, respaldado por mil millones de dólares en fondos de Microsoft, aún no comparte la tecnología con el público en general. público. Pero en una tarde reciente, Alex Nichol, uno de los investigadores detrás del sistema, demostró cómo funciona.

Cuando pidió "una tetera con forma de aguacate", escribiendo esas palabras en una pantalla de computadora en gran parte vacía, el sistema creó 10 imágenes distintas de una tetera de aguacate verde oscuro, algunas con huesos y otras sin. “DALL-E es bueno con los aguacates”, dijo Nichol.

DALL-E generó esta imagen a partir de un comando para "gatos jugando al ajedrez".Credit...OpenAI

Cuando escribió "gatos jugando al ajedrez", puso dos gatitos esponjosos a cada lado de un tablero de ajedrez, con 32 piezas de ajedrez alineadas entre ellos. Cuando convocó a "un oso de peluche tocando una trompeta bajo el agua", una imagen mostró pequeñas burbujas de aire que se elevaban desde el extremo de la trompeta del oso hacia la superficie del agua.

DALL-E también puede editar fotos. Cuando el Sr. Nichol borró la trompeta del oso de peluche y pidió una guitarra en su lugar, apareció una guitarra entre los brazos peludos.

Un equipo de siete investigadores pasó dos años desarrollando la tecnología, que OpenAI planea ofrecer eventualmente como una herramienta para personas como artistas gráficos, brindando nuevos atajos e ideas nuevas a medida que crean y editan imágenes digitales. Los programadores informáticos ya utilizan Copilot, una herramienta basada en una tecnología similar de OpenAI, para generar fragmentos de código de software.

Pero para muchos expertos, DALL-E es preocupante. A medida que este tipo de tecnología continúa mejorando, dicen, podría ayudar a difundir desinformación en Internet, alimentando el tipo de campañas en línea que pueden haber ayudado a influir en las elecciones presidenciales de 2016.

“Podrías usarlo para cosas buenas, pero ciertamente podrías usarlo para todo tipo de otras aplicaciones locas y preocupantes, y eso incluye falsificaciones profundas”, como [fotos y videos engañosos] (https://www.nytimes.com/ 2019/11/24/technology/tech-companies-deepfakes.html), dijo Subbarao Kambhampati, profesor de informática en la Universidad Estatal de Arizona.

Hace media década, la I.A. líder en el mundo. los laboratorios construyeron sistemas que podían identificar objetos en imágenes digitales e incluso [generar imágenes por sí mismos] (https://www.nytimes.com/interactive/2018/01/02/technology/ai-generated-photos.html), incluidas flores, perros, automóviles y rostros. Unos años más tarde, construyeron sistemas que podían hacer lo mismo con el lenguaje escrito, resumiendo artículos, respondiendo preguntas, generando tweets e incluso escribiendo entradas de blog.

Ahora, los investigadores están combinando esas tecnologías para crear nuevas formas de IA. DALL-E es un notable paso adelante porque hace malabarismos con el lenguaje y las imágenes y, en algunos casos, capta la relación entre ambos.

“Ahora podemos usar múltiples flujos de información que se cruzan para crear una tecnología cada vez mejor”, dijo Oren Etzioni, director ejecutivo del Instituto Allen para la Inteligencia Artificial, un laboratorio de inteligencia artificial en Seattle.

La tecnología no es perfecta. Cuando el Sr. Nichol le pidió a DALL-E que "pusiera la Torre Eiffel en la luna", no entendió la idea. Puso la luna en el cielo sobre la torre. Cuando pidió "una sala de estar llena de arena", produjo una escena que se parecía más a un sitio de construcción que a una sala de estar.

Pero cuando el Sr. Nichol modificó un poco sus solicitudes, agregando o quitando algunas palabras aquí o allá, le proporcionó lo que quería. Cuando pidió “un piano en una sala llena de arena”, la imagen parecía más una playa en una sala.

DALL-E es lo que los investigadores de inteligencia artificial llaman una red neuronal, que es un sistema matemático modelado libremente la red de neuronas en el cerebro. Esa es la misma tecnología que reconoce los comandos pronunciados en los teléfonos inteligentes e identifica la presencia de peatones mientras los autos autónomos navegan por las calles de la ciudad.

Una red neuronal aprende habilidades mediante el análisis de grandes cantidades de datos. Al identificar patrones en miles de fotos de aguacates, por ejemplo, puede aprender a reconocer un aguacate. DALL-E busca patrones mientras analiza millones de imágenes digitales, así como subtítulos de texto que describen lo que representa cada imagen. De esta forma, aprende a reconocer los vínculos entre las imágenes y las palabras.

Cuando alguien describe una imagen para DALL-E, genera un conjunto de características clave que esta imagen podría incluir. Una característica podría ser la línea al borde de una trompeta. Otro podría ser la curva en la parte superior de la oreja de un oso de peluche.

Luego, una segunda red neuronal, llamada modelo de difusión, crea la imagen y genera los píxeles necesarios para realizar estas funciones. La última versión de DALL-E, presentada el miércoles con un nuevo trabajo de investigación que describe el sistema, genera imágenes de alta resolución que en muchos casos parecen fotografías.

Aunque DALL-E a menudo no comprende lo que alguien ha descrito y, a veces, altera la imagen que produce, OpenAI continúa mejorando la tecnología. Los investigadores a menudo pueden refinar las habilidades de una red neuronal alimentándola con cantidades aún mayores de datos.

También pueden construir sistemas más potentes aplicando los mismos conceptos a nuevos tipos de datos. El Instituto Allen creó recientemente un sistema que puede analizar audio, imágenes y texto. Después de analizar millones de videos de YouTube, incluidas pistas de audio y subtítulos, aprendió a identificar momentos particulares en programas de televisión o películas, como un perro que ladra o una puerta que se cierra. .

Los expertos creen que los investigadores seguirán perfeccionando estos sistemas. En última instancia, esos sistemas podrían ayudar a las empresas a mejorar los motores de búsqueda, los asistentes digitales y otras tecnologías comunes, así como a automatizar nuevas tareas para artistas gráficos, programadores y otros profesionales.

Pero hay advertencias sobre ese potencial. la IA los sistemas pueden mostrar prejuicios contra las mujeres y las personas de color, en parte porque [aprenden sus habilidades de enormes cantidades de texto, imágenes y otros datos en línea que muestran prejuicios] (https://www.nytimes.com/2021/03/15 /tecnología/inteligencia-artificial-google-bias.html). Podrían usarse para generar pornografía, incitación al odio y otro material ofensivo. Y muchos expertos creen que la tecnología eventualmente hará que sea tan fácil crear desinformación, que la gente tendrá que ser escépticos de casi todo lo que ven en línea.

“Podemos falsificar texto. Podemos poner texto en la voz de alguien. Y podemos falsificar imágenes y videos”, dijo el Dr. Etzioni. “Ya hay desinformación en línea, pero la preocupación es que esta escala la desinformación a nuevos niveles”.

OpenAI mantiene un control estricto sobre DALL-E. No permitiría que personas ajenas usaran el sistema por su cuenta. Pone una marca de agua en la esquina de cada imagen que genera. Y aunque el laboratorio planea abrir el sistema a los probadores esta semana, el grupo será pequeño.

El sistema también incluye filtros que evitan que los usuarios generen imágenes que considere inapropiadas. Cuando se le preguntó por "un cerdo con cabeza de oveja", se negó a producir una imagen. La combinación de las palabras "cerdo" y "cabeza" probablemente activó los filtros antiacoso de OpenAI, según el laboratorio.

“Esto no es un producto”, dijo Mira Murati, directora de investigación de OpenAI. “La idea es comprender las capacidades y limitaciones y darnos la oportunidad de incorporar la mitigación”.

OpenAI puede controlar el comportamiento del sistema de alguna manera. Pero otros en todo el mundo pronto pueden crear una tecnología similar que ponga los mismos poderes en manos de casi cualquier persona. A partir de un artículo de investigación que describe una versión anterior de DALL-E, Boris Dayma, un investigador independiente en Houston, ya creó y lanzó una [versión más simple de la tecnología] (https://huggingface.co/spaces/flax-community /dalle-mini).

“La gente necesita saber que las imágenes que ven pueden no ser reales”, dijo.

Problema 2299

Conoce a DALL-E, la I.A. Que dibuja cualquier cosa a su disposición