Incidents associés
SAN FRANCISCO (AP) --- Le géant de la technologie OpenAI a vanté les mérites de son outil de transcription Whisper, basé sur l'intelligence artificielle, comme ayant une « robustesse et une précision proches de celles des humains ».
Mais Whisper a un défaut majeur : il a tendance à inventer des morceaux de texte ou même des phrases entières, selon des entretiens avec plus d'une douzaine d'ingénieurs en logiciel, de développeurs et de chercheurs universitaires. Ces experts ont déclaré que certains des textes inventés - connus dans le secteur sous le nom d'hallucinations - peuvent inclure des commentaires racistes, une rhétorique violente et même des traitements médicaux imaginaires.
Les experts ont déclaré que de telles inventions sont problématiques car Whisper est utilisé dans de nombreux secteurs à travers le monde pour traduire et transcrire des entretiens, générer du texte dans des technologies grand public populaires et créer des sous-titres pour des vidéos.
Ce qui est plus inquiétant, disent-ils, c'est la précipitation des centres médicaux à utiliser les outils basés sur Whisper pour retranscrire les consultations des patients avec les médecins, malgré les avertissements d'OpenAI selon lesquels l'outil ne devrait pas être utilisé dans les « domaines à haut risque ».
L'ampleur réelle du problème est difficile à discerner, mais les chercheurs et les ingénieurs ont déclaré qu'ils ont fréquemment rencontré les hallucinations de Whisper dans leur travail. Un chercheur de l'Université du Michigan (https://umich.edu/) qui a mené une étude sur les réunions publiques a par exemple déclaré avoir trouvé des hallucinations dans huit transcriptions audio sur dix qu'il avait inspectées, avant de commencer à essayer d'améliorer le modèle.
Un ingénieur en apprentissage automatique a déclaré avoir initialement découvert des hallucinations dans environ la moitié des plus de 100 heures de transcriptions Whisper qu'il a analysées. Un troisième développeur a déclaré avoir trouvé des hallucinations dans presque chacune des 26 000 transcriptions qu'il a créées avec Whisper.
Les problèmes persistent même dans les échantillons audio courts et bien enregistrés. Une étude récente menée par des informaticiens a découvert 187 hallucinations dans plus de 13 000 extraits audio clairs qu'ils ont examinés.
Cette tendance conduirait à des dizaines de milliers de transcriptions défectueuses sur des millions d'enregistrements, ont déclaré les chercheurs.
De telles erreurs pourraient avoir des « conséquences vraiment graves », notamment dans les milieux hospitaliers, a déclaré Alondra Nelson, qui a dirigé le Bureau de la politique scientifique et technologique de la Maison Blanche pour l'administration Biden jusqu'à l'année dernière.
« Personne ne veut d'un mauvais diagnostic », a déclaré Nelson, professeur à l'Institute for Advanced Study de Princeton, dans le New Jersey. « La barre devrait être plus élevée. »
Whisper est également utilisé pour créer des sous-titres pour les sourds et les malentendants, une population particulièrement exposée aux transcriptions erronées. En effet, les sourds et les malentendants n'ont aucun moyen d'identifier les fabrications « cachées parmi tous ces autres textes », a déclaré Christian Vogler, qui est sourd et dirige le programme d'accès à la technologie de l'université Gallaudet.
OpenAI exhorté à résoudre le problème
La prévalence de telles hallucinations a conduit des experts, des défenseurs et d'anciens employés d'OpenAI à demander au gouvernement fédéral d'envisager une réglementation de l'IA. Au minimum, ont-ils déclaré, OpenAI doit remédier à la faille.
"Cela semble résoluble si l'entreprise est prête à en faire une priorité", a déclaré William Saunders, un ingénieur de recherche basé à San Francisco qui a quitté OpenAI en février en raison de préoccupations concernant l'orientation de l'entreprise. "C'est problématique si vous mettez cela en ligne et que les gens sont trop confiants quant à ce qu'il peut faire et l'intègrent dans tous ces autres systèmes."
Un porte-parole d'OpenAI a déclaré que l'entreprise étudie continuellement comment réduire les hallucinations et apprécie les conclusions des chercheurs, ajoutant qu'OpenAI intègre les commentaires dans les mises à jour du modèle.
Alors que la plupart des développeurs partent du principe que les outils de transcription font des fautes d'orthographe ou d'autres erreurs, les ingénieurs et les chercheurs ont déclaré qu'ils n'avaient jamais vu un autre outil de transcription basé sur l'IA halluciner autant que Whisper.
Hallucinations de Whisper
L'outil est intégré à certaines versions du chatbot phare d'OpenAI, ChatGPT, et constitue une offre intégrée aux plateformes de cloud computing d'Oracle et de Microsoft, qui servent des milliers d'entreprises dans le monde. Il est également utilisé pour transcrire et traduire du texte dans plusieurs langues.
Au cours du seul mois dernier, une version récente de Whisper a été téléchargée plus de 4,2 millions de fois à partir de la plateforme d'IA open source HuggingFace. Sanchit Gandhi, ingénieur en apprentissage automatique chez Whisper, a déclaré qu'il s'agissait du modèle de reconnaissance vocale open source le plus populaire et qu'il était intégré à tout, des centres d'appels aux assistants vocaux.
Les professeurs Allison Koenecke de l'université Cornell et Mona Sloane de l'université de Virginie ont examiné des milliers de courts extraits obtenus de TalkBank, un référentiel de recherche hébergé par l'université Carnegie Mellon. Ils ont déterminé que près de 40 % des hallucinations étaient nuisibles ou inquiétantes, car le locuteur pouvait être mal interprété ou mal représenté.
Dans un exemple qu'ils ont découvert, un locuteur a dit : « Lui, le garçon, allait, je ne sais pas exactement, prendre le parapluie. »
Mais le logiciel de transcription a ajouté : « Il a pris un gros morceau d'une croix, un tout petit morceau... Je suis sûr qu'il n'avait pas de couteau de terreur, alors il a tué un certain nombre de personnes. »
Un locuteur dans un autre enregistrement a décrit « deux autres filles et une dame. » Whisper a inventé un commentaire supplémentaire sur la race, en ajoutant « deux autres filles et une dame, euh, qui étaient noires ».
Dans une troisième transcription, Whisper a inventé un médicament inexistant appelé « antibiotiques hyperactivés ».
Les chercheurs ne savent pas exactement pourquoi Whisper et des outils similaires provoquent des hallucinations, mais les développeurs de logiciels ont déclaré que les fabrications ont tendance à se produire au milieu de pauses, de bruits de fond ou de musique.
OpenAI a recommandé dans ses divulgations en ligne de ne pas utiliser Whisper dans « des contextes de prise de décision, où des défauts de précision peuvent conduire à des défauts prononcés dans les résultats ».
Transcription des rendez-vous médicaux
Cet avertissement n'a pas empêché les hôpitaux ou les centres médicaux d'utiliser des modèles de conversion de la parole en texte, y compris Whisper, pour transcrire ce qui est dit lors des visites chez le médecin afin de libérer les prestataires médicaux pour qu'ils passent moins de temps à prendre des notes ou à rédiger des rapports.
Plus de 30 000 cliniciens et 40 systèmes de santé, dont la clinique Mankato du Minnesota et l'hôpital pour enfants de Los Angeles, ont commencé à utiliser un outil basé sur Whisper développé par Nabla, qui possède des bureaux en France et aux États-Unis.
Cet outil a été affiné sur le langage médical pour retranscrire et résumer les interactions des patients, a déclaré Martin Raison, directeur technique de Nabla.
Les responsables de l'entreprise ont déclaré qu'ils étaient conscients que Whisper pouvait halluciner et qu'ils s'attaquaient au problème.
Il est impossible de comparer la transcription générée par l'IA de Nabla à l'enregistrement original, car l'outil de Nabla efface l'audio d'origine pour des « raisons de sécurité des données », a déclaré Raison.
Nabla a déclaré que l'outil a été utilisé pour retranscrire environ 7 millions de visites médicales.
Saunders, l'ancien ingénieur d'OpenAI, a déclaré que l'effacement de l'audio d'origine pourrait être inquiétant si les transcriptions ne sont pas vérifiées deux fois ou si les cliniciens ne peuvent pas accéder à l'enregistrement pour vérifier qu'elles sont correctes.
« Vous ne pouvez pas détecter les erreurs si vous supprimez la vérité fondamentale », a-t-il déclaré.
Nabla a déclaré qu'aucun modèle n'est parfait et que le leur exige actuellement que les prestataires médicaux modifient et approuvent rapidement les notes transcrites, mais cela pourrait changer.
Problèmes de confidentialité
Étant donné que les rencontres des patients avec leurs médecins sont confidentielles, il est difficile de savoir comment les transcriptions générées par l'IA les affectent.
Une législatrice de l'État de Californie, Rebecca Bauer-Kahan, a déclaré qu'elle avait emmené l'un de ses enfants chez le médecin plus tôt cette année et avait refusé de signer un formulaire fourni par le réseau de santé qui demandait sa permission de partager l'audio de la consultation avec des fournisseurs, dont Microsoft Azure, le système de cloud computing géré par le plus grand investisseur d'OpenAI. Bauer-Kahan ne voulait pas que des conversations médicales aussi intimes soient partagées avec des entreprises technologiques, a-t-elle déclaré.
« Le communiqué précisait très précisément que les entreprises à but lucratif auraient le droit d'avoir cela », a déclaré Bauer-Kahan, une démocrate qui représente une partie des banlieues de San Francisco à l'Assemblée de l'État. « Je me suis dit : absolument pas. »
Ben Drew, porte-parole de John Muir Health, a déclaré que le système de santé respecte les lois fédérales et étatiques sur la protection de la vie privée.