Report 217

Usuario: Siri, llámame una ambulancia.

Siri: Está bien, de ahora en adelante te llamaré "una ambulancia".

Apple corrigió este error poco después de que su asistente virtual fuera lanzado por primera vez en 2011. Pero un nuevo concurso muestra que las computadoras todavía carecen del sentido común necesario para evitar confusiones tan vergonzosas.

Los resultados del concurso se presentaron en una conferencia académica en Nueva York esta semana y proporcionan una medida de cuánto trabajo se necesita hacer para que las computadoras sean realmente inteligentes.

Ilustración de Max Bode

El Winograd Schema Challenge le pide a las computadoras que den sentido a oraciones que son ambiguas pero que, por lo general, son fáciles de analizar para los humanos. Eliminar la ambigüedad de las oraciones del esquema de Winograd requiere cierta comprensión del sentido común. En la oración “Los concejales negaron el permiso a los manifestantes porque temían la violencia”, lógicamente no está claro a quién se refiere la palabra “ellos”, aunque los humanos entienden debido al contexto más amplio.

Los programas que participaron en el desafío fueron un poco mejores que al azar para elegir el significado correcto de las oraciones. Los dos mejores participantes acertaron el 48 por ciento de las veces, en comparación con el 45 por ciento si las respuestas se eligen al azar. Para ser elegible para reclamar el gran premio de $ 25,000, los participantes deberán lograr al menos un 90 por ciento de precisión. Las mejores entradas conjuntas provinieron de Quan Liu, investigador de la Universidad de Ciencia y Tecnología de China, y Nicos Issak, investigador de la Universidad Abierta de Chipre.

“No sorprende que las máquinas fueran apenas mejores que el azar”, dice Gary Marcus, psicólogo investigador de la Universidad de Nueva York y asesor del concurso. Esto se debe a que dar a las computadoras conocimientos de sentido común es notoriamente difícil. El conocimiento de la codificación manual requiere mucho tiempo, y no es simple para las computadoras aprender sobre el mundo real mediante la realización de análisis estadísticos del texto. La mayoría de los participantes en Winograd Schema Challenge intentan usar alguna combinación de comprensión gramatical codificada a mano y una base de conocimientos de hechos.

Marcus, quien también es cofundador de una nueva empresa de IA, Geometric Intelligence, dice que es notable que Google y Facebook no hayan participado en el evento, a pesar de que los investigadores de estas empresas han sugerido que están logrando grandes avances en la comprensión del lenguaje natural. “Pudo haber sido que esos muchachos entraron a esta sala y obtuvieron el cien por ciento y dijeron ‘¡ja!’”, dice. “Pero eso me hubiera asombrado”.

El concurso no solo sirve como una medida de progreso en IA. También muestra lo difícil que será crear chatbots más intuitivos y elegantes, y entrenar a las computadoras para que extraigan más información del texto escrito.

Los investigadores de Google, Facebook, Amazon y Microsoft están centrando su atención en el lenguaje. Están utilizando las últimas técnicas de aprendizaje automático, especialmente redes neuronales de "aprendizaje profundo", para desarrollar chatbots y asistentes personales más inteligentes e intuitivos (consulte "Enseñar a las máquinas a entendernos"). De hecho, con los bots de chat y los asistentes de voz cada vez más comunes, y con el progreso espectacular en áreas como el reconocimiento de imágenes y de voz, se podría pensar que las máquinas se estaban volviendo bastante buenas para entender el lenguaje.

Una de las dos entradas en primer lugar, de hecho, usó un enfoque de aprendizaje automático de última generación. El grupo de Liu, que incluía investigadores de la Universidad de York en Toronto y el Consejo Nacional de Investigación de Canadá, usó el aprendizaje profundo para entrenar a una computadora para que reconociera la relación entre diferentes eventos, como "jugar baloncesto" y "ganar" o "herirse". de miles de textos.

“Me encantó ver que se utilizó el aprendizaje profundo”, dice Leora Morgenstern, científica sénior de Leidos Corporation, una firma de consultoría tecnológica y una de las organizadoras del desafío.

El equipo de Liu afirma que después de solucionar un problema con la forma en que su sistema analizó las preguntas del concurso, tiene una precisión de casi el 60 por ciento. Sin embargo, Morgenstern advierte que incluso si se confirmaran estas afirmaciones, la precisión sería mucho peor que la de un humano.

Las oraciones del esquema de Winograd fueron destacadas por primera vez como una forma de medir la comprensión de la máquina por Hector Levesque, un investigador de inteligencia artificial de la Universidad de Toronto. Llevan el nombre de Terry Winograd, un pionero en el campo y profesor de la Universidad de Stanford que creó uno de los primeros programas informáticos conversacionales.

El desafío se propuso en 2014 como una mejora del Test de Turing. Alan Turing, un antepasado de la informática y la inteligencia artificial que en la década de 1950 reflexionó sobre si las máquinas algún día podrían pensar como los humanos, sugirió una forma sencilla de probar la inteligencia de una máquina. Su idea era que una máquina intentara engañar a una persona haciéndole creer que estaba conversando con una persona real en una conversación de texto.

El problema con la prueba de Turing es que a menudo es fácil para un programa engañar a una persona usando trucos y evasivas simples. Pero un programa no puede analizar Winograd Schema u otras oraciones ambiguas sin alguna forma de general

Problema 217

Una prueba de Turing más dura expone la estupidez de los chatbots