Report 1888

La recherche et le développement ont un problème majeur non résolu dans les systèmes d'IA de pointe : faire en sorte que les systèmes fonctionnent bien au-delà de l'environnement pour lequel ils ont été conçus. Bien que ce problème porte de nombreux noms (par exemple, changement de distribution, généralisation du modèle, robustesse des ensembles ouverts, etc.), ses implications sont déjà apparentes dans le monde réel,

(deux images montrent deux incidents différents, l'un où la chemise d'une femme est confondue avec une plaque d'immatriculation et l'autre où la photo d'une femme sur le côté du bus est honteuse pour jaywalking en Chine)

Cette incapacité à « généraliser » est l'une des raisons pour lesquelles le partage d'incidents à travers les cultures, les géographies et les langues est si important : un système produit à l'origine dans un pays et déployé dans un autre produira des incidents imprévus dont le monde entier doit tirer des leçons. Par conséquent, la base de données des incidents d'IA a commencé à indexer les incidents d'IA dans toutes les langues.

Comment cela marche-t-il?

La base de données d'incidents AI indexe les "rapports d'incidents" écrits, qui jusqu'à présent étaient entièrement en anglais. Désormais, lorsqu'un incident est signalé, le rapport est étiqueté avec une langue source et traduit automatiquement dans toutes les langues actuellement prises en charge.

(Une liste de plus de 130 langues se trouve dans la colonne de gauche et est présentée comme prise en charge par le site Web, tandis que la colonne de droite montre que l'interface utilisateur est traduite en anglais et en espagnol)

Pourquoi acceptons-nous 133 langues, mais ne fournissons-nous qu'une interface utilisateur pour deux langues ? Opportunité et prudence. Premièrement, la traduction de l'interface utilisateur (par exemple, les boutons, les descriptions, etc.) dans différentes langues prend du temps. Deuxièmement, la base de données des incidents AI compte de nombreux collaborateurs qui connaissent l'anglais et l'espagnol et peuvent corriger les mauvaises traductions. Bien que la traduction automatique prenne en charge plus de 130 langues, nous ne pensons pas que les pires langues traduites parmi celles-ci soient suffisamment robustes pour être fiables. En fait, lors de nos tests de performances entre l'espagnol et l'anglais, nous avons trouvé que le texte résultant était interprétable, mais maladroit et incohérent. Les traductions sont bien adaptées aux fins de partage et de découverte d'incidents, mais ne sont pas de bonne qualité. Au fur et à mesure que nous gagnons en confiance dans la qualité de la traduction automatique des langues à faibles ressources et/ou élargissons notre communauté de collaborateurs, nous ajouterons des langues à l'interface utilisateur de la base de données. Nous prévoyons d'ajouter le support en français au cours du mois prochain.

En bref : la voie la plus rapide et la plus prudente consiste à ajouter une seule langue avant de mettre à l'échelle la fonctionnalité. Vous pouvez nous aider à accélérer nos projets d'indexation de tout, de l'albanais au zoulou.

Appel à l'action

Nous avons fondé la Responsible AI Collaborative (l'organisation qui régit la base de données des incidents d'IA) pour développer en collaboration les systèmes nécessaires au partage des incidents entre les cultures, les langues et les zones géographiques. Nous avons besoin de votre aide pour nous assurer que nos traductions servent la théorie du changement de la base de données des incidents. Veuillez nous contacter si vous souhaitez aider à traduire et localiser des langues autres que l'anglais !

## Addendum : Risques liés au modèle et meilleures pratiques

Avertissement : nous donnons ici un exemple d'erreur de traduction pour illustrer comment la traduction automatique produira inévitablement des incidents liés à l'IA. L'incident en question est offensant et insultant.

La traduction automatique est un cas illustratif idéal pour expliquer pourquoi la collecte et la diffusion des incidents d'IA sont si importantes. Peu de gens diraient que le monde serait mieux sans traduction automatique, mais la technologie produit régulièrement des incidents offensants et parfois dangereux.

Un navire au port est sûr, mais ce n'est pas pour cela que les navires sont construits.

Pour prolonger un aphorisme sur la sécurité des navires, il existe une variété de technologies de support (satellites météo, radar, etc.) et de processus (fermez les écoutilles !) déterminant comment et s'il est approprié de mettre les voiles. Les entreprises, y compris la Responsible AI Collaborative, doivent mettre en place des systèmes et des processus pour la surveillance, l'amélioration et le signalement des incidents des modèles.

Revenant au contexte de la traduction automatique, le défi non résolu de la généralisation est celui du contexte et du sous-texte. Les humains ont un "modèle" pour leur public qui leur permet de communiquer plus que la traduction littérale du texte. La résolution de ce sous-texte est souvent l'endroit où la traduction automatique tourne mal. Par exemple, un contributeur de la base de données d'incidents a récemment partagé cette image de la fonction de traduction basée sur l'appareil photo de Google sur Google Lens,

Deux images sont présentées côte à côte d'un livre. L'image de gauche n'est pas modifiée, tandis que l'image de droite traduit la couverture du livre du coréen à l'anglais. Le titre du livre a été mal traduit en "dick sucker".

C'est une traduction qui ne devrait jamais être produite dans le contexte d'un livre du premier ministre de la culture en Corée. Cependant, en discutant avec des lecteurs de la langue coréenne, vous pouvez voir comment une traduction sans contexte qui est probablement formée sur les communications Internet pourrait arriver à cette traduction.

Le titre du livre se traduit littéralement par "ça, ça", ce qui signifie aussi "sur le bout de ma langue". Combinez cela avec l'utilisation coréenne de "ça" comme argot pour les organes génitaux masculins, et vous arrivez à cette malheureuse erreur de traduction. Sans que le contexte du texte traduit ne soit le titre d'un livre d'une personne sérieuse, la traduction la plus probable (et la plus offensante) est celle que l'on trouverait sur les babillards électroniques.

Pouvons-nous éviter d'ajouter la base de données des incidents AI en tant qu'incident dans la base de données des incidents AI ?

Non. Mais nous pouvons réduire la probabilité et les impacts négatifs. Dans ce sens, les meilleures pratiques que nous avons identifiées sont : (1) toujours identifier dans l'interface utilisateur quand le contenu a été traduit automatiquement, (2) fournir un lien vers le texte source non traduit, (3) permettre aux utilisateurs de signaler, corriger , et améliorer les mauvaises traductions, (4) valider l'efficacité des traductions entre les langues avant de rendre ces traductions généralement disponibles, et (5) développer une communauté de personnes qui peuvent interpréter et répondre aux problèmes de traduction s'ils se produisent.

Problème 1888

Incidents associés

Incident 2851 Rapport
Google Lens’s Camera-Based Translation Feature Provided an Offensive Mistranslation of a Book Title in Korean

Rapport d'incident multilingue

Comment cela marche-t-il?

Appel à l'action

Problème 1888

Incidents associés

Incident 2851 RapportGoogle Lens’s Camera-Based Translation Feature Provided an Offensive Mistranslation of a Book Title in Korean

Rapport d'incident multilingue

Comment cela marche-t-il?

Appel à l'action

Incident 2851 Rapport
Google Lens’s Camera-Based Translation Feature Provided an Offensive Mistranslation of a Book Title in Korean