Incidentes Asociados

El 28 de julio de 2020, el medio de comunicación ampliamente seguido, Thai PBS, publicó una transmisión en vivo de la ceremonia de encendido de velas para celebrar el cumpleaños de Su Majestad el Rey en su página de Facebook.
El título de la transmisión en vivo, decía:
“[En directo] Acto de encendido de velas para celebrar el cumpleaños de SM el Rey en julio de 2018, 2020 a las 18.45 h”
Sin embargo, una falla en la herramienta de traducción de Facebook cambió las palabras "Cumpleaños del Rey" a "Día de los Caídos del Rey", en la traducción al tailandés.
Esperando ver palabras celebrando su cumpleaños, en lugar del lenguaje que se muestra en memoria de la muerte, muchas personas se enfurecieron, y algunos incluso pidieron la renuncia de los ejecutivos de Thai PBS.
En consecuencia, Thai PBS publicó una declaración al día siguiente, culpando al gigante de las redes sociales. Facebook admitió rápidamente la culpa, emitió una "profunda disculpa" a los tailandeses y desactivó temporalmente la traducción automática del inglés al tailandés mientras se reparaba la herramienta.
Entonces, ¿cómo es que Facebook se equivocó tanto en la traducción?
Traducción AI no puede hablar tailandés real
La IA de traducción de Facebook aprende el idioma a partir de la experiencia. En lo que respecta al idioma tailandés, la herramienta aún no ha aprendido suficiente vocabulario real para comprender la "versión real" de la palabra "cumpleaños" (วันเฉลิมพระชนมพรรษา).
Por lo tanto, eligió otra palabra real más estrechamente asociada con la "ceremonia de encendido de velas", que es "Día de los Caídos". Esto se traduce más literalmente como un aniversario de muerte (วันคล้ายวันสวรรคต).
Aunque esta instancia específica parece un simple paso en falso de traducción, el problema más importante del asunto consiste en comprender cómo la IA de Facebook cometió este error y cómo la IA en realidad "aprende de la experiencia".
Facebook siempre ha utilizado IA para traducir las publicaciones de los usuarios, y esta es una herramienta que se ha vuelto más sofisticada a lo largo de los años debido a la inversión en nuevas tecnologías.
En 2017, Facebook pasó de usar una herramienta simple similar a un diccionario que traduce las publicaciones palabra por palabra a una herramienta de inteligencia artificial más sofisticada que considera el contexto de las publicaciones antes de traducirlas.
La IA utiliza lo que se conoce como "redes neuronales de memoria a corto plazo", cuyo objetivo es replicar parcialmente el mecanismo de la función de memoria a corto plazo del cerebro humano, aunque con la ventaja de ser una máquina.
Cómo funciona la IA, en pocas palabras, es: mantiene un banco de datos de oraciones en el idioma de origen y sus traducciones, llamado "par de palabras". La memoria de cada par de palabras se actualiza con el tiempo en función de los nuevos datos que recopila a medida que los usuarios interactúan en la plataforma y con ella.
Hasta la fecha, Facebook ha podido aprovechar su enorme base de usuarios para recopilar miles de millones de pares de palabras, que ahora abarcan más de 2000 direcciones de traducción. Esta colección de pares de palabras permite que la herramienta de traducción de IA perfeccione sus traducciones, haciendo que el resultado del texto se lea de forma más natural en comparación con las traducciones palabra por palabra.
Inevitablemente, todavía hay algunas palabras en el idioma tailandés sin una traducción sencilla, y aquí es donde la herramienta se encuentra con un problema. Cuando se encuentra en una situación que no tiene una traducción contextual precisa del tailandés al inglés, la IA de Facebook elige de manera predeterminada la palabra (o palabras) con la alineación más cercana según las entradas históricas en su lugar.
El 28 de julio es cuando este método reveló sus fallas. Dado que los tailandeses comunes rara vez usan el lenguaje real en las interacciones cotidianas, en consecuencia, hay muestras minúsculas de vocabulario tailandés real de las que la IA puede aprender. Entonces, la herramienta aún no conocía estas palabras y, en lugar de apagarse para evitar un desastre, mostró el error de traducción muy inoportuno y controvertido.
El tailandés es un hueso duro de roer
Para ser justos, el tailandés es un idioma difícil de traducir directamente por varias razones, y esto se aplica tanto a las computadoras como a los humanos (hablantes nativos de tailandés).
Primero, cuando se forman oraciones completas en tailandés, las palabras sueltas no se separan con espacios. Por lo tanto, es comprensible que la IA tenga dificultades para identificar las palabras correctas en presencia de menos contexto. Un ejemplo simplificado es la frase "ตากลม", que puede significar "ojos redondos" o "secándose al viento". Como tantas otras, esta frase no puede ser distinguida fácilmente ni siquiera por lectores humanos sin ver otras palabras en la misma oración, debido principalmente a la falta de espacio entre las palabras.
En segundo lugar, el idioma tailandés a menudo usa espacios para dividir oraciones y separar palabras en una lista en lugar de usar puntuación, como comas y puntos. El uso, o la falta, de puntuación crea un desafío adicional para la IA porque la identificación de oraciones separadas requiere con frecuencia la comprensión de párrafos completos.
Por último, el volumen de datos disponibles para el entrenamiento de IA en el idioma tailandés es bastante pequeño en comparación con otros idiomas traducidos por AI en Facebook. El conjunto de datos más extenso disponible para la herramienta de aprendizaje automático del idioma tailandés contiene un millón de pares de palabras, que es muy pequeño en comparación con los 40 millones de pares de palabras disponibles en francés.
Ahora, agregue un poco de vocabulario real tailandés que rara vez se usa en la mezcla. Ahora debería tener más sentido por qué el idioma tailandés es uno de los idiomas más difíciles para que esta herramienta traduzca con precisión, sin supervisión humana.
Los usuarios de Google Translate probablemente también estén familiarizados con esto. Los pasajes traducidos automáticamente al idioma tailandés suelen parecer forzados y, en ocasiones, incoherentes.
IA de traducción de próxima generación
El mes pasado, comenzaron a aparecer los resultados de una nueva generación de IA llamada GPT-3. El software está siendo desarrollado por OpenAI, un laboratorio de investigación cofundado por Elon Musk. Es la tercera iteración del modelo de aprendizaje automático especializado en el procesamiento del lenguaje natural.
Hasta la fecha, los resultados son impresionantes. A partir de ahora, la nueva IA traduce la mayoría de las frases con fluidez, y su "factor sorpresa" es que también puede escribir ensayos, poemas e incluso códigos de lenguaje de programación por sí solo.
El rápido crecimiento de esta tecnología es posible porque GPT-3 entrena la IA en un conjunto de datos mucho más grande que su predecesor por órdenes de magnitud.
Para ilustrar la escala, toda la Wikipedia en inglés solo representa el 0,6% del total de datos que aprende la IA, y fue diseñada para entrenar en la totalidad de Internet.
Con suerte, esto significa que la nueva generación de IA será lo suficientemente capaz de abordar las complejidades y los matices de traducir el idioma tailandés en sus complejidades, reales y de otro tipo.