Incidents associés

Le 28 juillet 2020, un média très suivi, Thai PBS, a publié une diffusion en direct de la cérémonie d'allumage des bougies célébrant l'anniversaire de Sa Majesté le Roi sur sa page Facebook.
La légende du flux en direct, a déclaré:
"[Live] Cérémonie d'allumage des bougies pour célébrer l'anniversaire de SM le Roi le juillet 2018 2020 à 18h45"
Cependant, un problème avec l'outil de traduction de Facebook a changé les mots "King's birthday" en "King's Memorial Day." dans la traduction thaïlandaise.
S'attendant à voir des mots célébrant son anniversaire, plutôt que le langage affiché dans le mémorial de la mort, de nombreuses personnes sont devenues furieuses, certaines appelant même à la démission des dirigeants de Thai PBS.
Par conséquent, Thai PBS a publié une déclaration le lendemain, rejetant la faute sur le géant des médias sociaux. Facebook a rapidement reconnu sa faute, a présenté des "excuses profondes" au peuple thaïlandais et a temporairement désactivé la traduction automatique de l'anglais vers le thaï pendant que l'outil était réparé.
Alors, comment Facebook s'est-il trompé de traduction ?
Traduction AI ne peut pas parler le thaï royal
L'IA de traduction de Facebook apprend la langue par l'expérience. En ce qui concerne la langue thaï, l'outil n'a pas encore appris suffisamment de vocabulaire royal pour comprendre la "version royale" du mot "anniversaire" (วันเฉลิมพระชนมพรรษา).
Ainsi, il a choisi un autre mot royal le plus étroitement associé à la "cérémonie d'allumage des bougies", qui est "Jour du souvenir". Cela se traduit plus littéralement par un anniversaire de décès (วันคล้ายวันสวรรคต).
Bien que ce cas spécifique semble être un simple faux pas de traduction, le problème le plus important consiste à comprendre comment l'IA de Facebook a commis cette erreur et comment l'IA "apprend de l'expérience".
Facebook a toujours utilisé l'IA pour traduire les messages des utilisateurs, et c'est un outil qui est devenu plus sophistiqué au fil des ans en raison des investissements dans les nouvelles technologies.
En 2017, Facebook est passé d'un simple outil de type dictionnaire qui traduit les publications mot à mot à un outil d'IA plus sophistiqué qui prend en compte le contexte des publications avant de les traduire.
L'IA utilise ce que l'on appelle des "réseaux de neurones à mémoire à court terme", qui visent à reproduire partiellement le mécanisme de la fonction de mémoire à court terme du cerveau humain, mais avec l'avantage d'être une machine.
Le fonctionnement de l'IA, en un mot, est le suivant : elle conserve une banque de données de phrases dans la langue source et leurs traductions, appelée une "paire de mots". La mémoire de chaque paire de mots est mise à jour au fil du temps en fonction des nouvelles données qu'elle collecte au fur et à mesure que les utilisateurs interagissent sur et avec la plateforme.
À ce jour, Facebook a pu tirer parti de sa base d'utilisateurs massive pour collecter des milliards de paires de mots, qui englobent désormais plus de 2 000 directions de traduction. Cette collection de paires de mots permet à l'outil de traduction AI d'affiner ses traductions, ce qui rend la sortie de texte plus naturelle par rapport aux traductions mot à mot.
Inévitablement, il y a encore des mots dans la langue thaï sans aucune traduction directe, et c'est là que l'outil rencontre un problème. Dans une situation qui n'a pas de traduction contextuelle précise du thaï vers l'anglais, l'IA de Facebook choisit par défaut le mot (ou les mots) avec l'alignement le plus proche en fonction des entrées historiques à la place.
C'est le 28 juillet que cette méthode a révélé ses failles. Étant donné que les Thaïlandais ordinaires utilisent rarement la langue royale dans les interactions quotidiennes, il existe par conséquent de minuscules échantillons de vocabulaire royal thaïlandais dont l'IA peut apprendre. Ainsi, l'outil ne connaissait pas encore ces mots, et au lieu de s'éteindre pour éviter un désastre, il affichait l'erreur de traduction très intempestive et controversée.
Le thaï est une noix difficile à casser
En toute honnêteté, le thaï est une langue difficile à traduire directement pour plusieurs raisons, et cela s'applique aussi bien aux ordinateurs qu'aux humains (locuteurs natifs du thaï).
Premièrement, lors de la formation de phrases complètes en thaï, les mots simples ne sont pas séparés par des espaces. Il est donc compréhensible que l'IA ait du mal à identifier les mots corrects en présence de moins de contexte. Un exemple simplifié est l'expression "ตากลม", qui peut signifier soit "yeux ronds" soit "séchant au vent". Comme tant d'autres, cette phrase ne peut pas être facilement distinguée même par des lecteurs humains sans voir d'autres mots dans la même phrase, principalement en raison du manque d'espace entre les mots.
Deuxièmement, la langue thaï utilise souvent des espaces pour diviser les phrases et séparer les mots dans une liste au lieu d'utiliser la ponctuation, comme les virgules et les points. L'utilisation ou l'absence de ponctuation crée un défi supplémentaire pour l'IA car l'identification de phrases séparées nécessite souvent une compréhension de paragraphes entiers.
Enfin, le volume de données disponibles pour la formation IA en langue thaï est assez faible par rapport aux autres langues traduites par IA sur Facebook. L'ensemble de données le plus complet disponible pour l'outil d'apprentissage automatique de la langue thaï contient un million de paires de mots, ce qui est minuscule par rapport aux 40 millions de paires de mots disponibles en français.
Maintenant, ajoutez du vocabulaire royal thaïlandais rarement utilisé dans le mélange. Il devrait maintenant être plus logique de comprendre pourquoi la langue thaïlandaise est l'une des langues les plus difficiles à traduire avec précision par cet outil, sans aucune surveillance humaine.
Les utilisateurs de Google Translate sont probablement également familiers avec cela. Les passages traduits automatiquement en thaï apparaissent généralement guindés et, parfois, incohérents.
IA de traduction nouvelle génération
Le mois dernier, les résultats d'une nouvelle g énération d'IA appelée GPT-3 ont commencé à faire surface. Le logiciel est développé par OpenAI, un laboratoire de recherche cofondé par Elon Musk. Il s'agit de la troisième itération du modèle d'apprentissage automatique spécialisé dans le traitement du langage naturel.
A ce jour, les résultats sont impressionnants. À l'heure actuelle, la nouvelle IA traduit couramment la plupart des phrases, et son "facteur wow" est qu'elle peut également écrire des essais, des poèmes et même des codes de langage de programmation par elle-même.
La croissance rapide de cette technologie est possible car GPT-3 entraîne l'IA sur un ensemble de données beaucoup plus volumineux que son prédécesseur par ordre de grandeur.
Pour illustrer l'échelle, l'ensemble de Wikipédia en anglais ne représente que 0,6 % du total des données que l'IA apprend - et il a été conçu pour s'entraîner sur l'intégralité d'Internet.
Espérons que cela signifie que la nouvelle génération d'IA sera suffisamment capable de s'attaquer aux complexités et aux nuances de la traduction de la langue thaïlandaise dans ses complexités, royales et autres.