Problème 3235

Le chatbot d’intelligence artificielle Bard de Google répondra rapidement et avec un excès de confiance à une question sur le nombre de pandas vivant dans les zoos.
Cependant, il incombe à des milliers d'entrepreneurs externes d'entreprises telles qu'Appen Ltd. et Accenture Plc de veiller à ce que la réponse soit bien fournie et fondée sur des preuves, qui peuvent gagner aussi peu que 14 dollars de l'heure et travailler avec une formation minimale dans des délais effrénés, selon à plusieurs entrepreneurs, qui ont refusé d'être nommés par crainte de perdre leur emploi.
Les sous-traitants sont le backend invisible du boom de l’IA générative qui est censé tout changer. Les chatbots comme Bard utilisent l’intelligence informatique pour répondre presque instantanément à une gamme de requêtes couvrant l’ensemble des connaissances et de la créativité humaines. Mais pour améliorer ces réponses afin qu’elles puissent être fournies de manière fiable encore et encore, les entreprises technologiques s’appuient sur de véritables personnes qui examinent les réponses, fournissent des commentaires sur les erreurs et éliminent toute idée de parti pris.
C’est un travail de plus en plus ingrat. Six employés contractuels actuels de Google ont déclaré que, alors que l'entreprise s'engageait dans une course aux armements en matière d'IA avec son rival OpenAI au cours de l'année écoulée, la taille de leur charge de travail et la complexité de leurs tâches augmentaient. Sans expertise spécifique, on leur faisait confiance pour évaluer les réponses sur des sujets allant des doses de médicaments aux lois des États. Les documents partagés avec Bloomberg montrent des instructions alambiquées que les travailleurs doivent appliquer à des tâches avec des délais de vérification des réponses qui peuvent être aussi courts que trois minutes.
« Dans l’état actuel des choses, les gens ont peur, sont stressés, sous-payés et ne savent pas ce qui se passe », a déclaré l’un des entrepreneurs. « Et cette culture de la peur n’est pas propice à l’obtention de la qualité et du travail d’équipe que vous attendez de nous tous. »
Google a positionné ses produits d'IA comme des ressources publiques dans les domaines de la santé, de l'éducation et de la vie quotidienne. Mais en privé et en public, les entrepreneurs ont fait part de leurs inquiétudes quant à leurs conditions de travail, qui, selon eux, nuisent à la qualité de ce que voient les utilisateurs. Un employé contractuel de Google qui travaille pour Appen a déclaré dans une lettre adressée au Congrès en mai que la rapidité avec laquelle ils sont tenus d'examiner le contenu pourrait conduire Bard à devenir un produit « défectueux » et « dangereux ».
Google a fait de l'IA une priorité majeure dans l'ensemble de l'entreprise, s'empressant d'incorporer la nouvelle technologie dans ses produits phares après le lancement de ChatGPT d'OpenAI en novembre. En mai, lors de la conférence annuelle des développeurs d'E/S de l'entreprise, Google a ouvert Bard à 180 pays et territoires et a dévoilé des fonctionnalités expérimentales d'IA dans des produits de renom tels que la recherche, la messagerie électronique et Google Docs. Google se positionne comme supérieur à la concurrence en raison de son accès à « l’étendue des connaissances mondiales ».
"Nous entreprenons un travail approfondi pour construire nos produits d'IA de manière responsable, y compris des processus rigoureux de tests, de formation et de retour d'information que nous avons perfectionnés depuis des années pour mettre l'accent sur la réalité et réduire les préjugés", a déclaré Google, propriété d'Alphabet Inc., dans un communiqué. L'entreprise a déclaré qu'elle ne comptait pas uniquement sur les évaluateurs pour améliorer l'IA, et qu'il existe un certain nombre d'autres méthodes pour améliorer sa précision et sa qualité.
Pour préparer le public à utiliser ces produits, les travailleurs ont déclaré avoir commencé à effectuer des tâches liées à l'IA dès janvier. Un formateur, employé par Appen, a récemment été invité à comparer deux réponses fournissant des informations sur les dernières nouvelles concernant l'interdiction en Floride des soins d'affirmation de genre, en évaluant les réponses par utilité et pertinence. Il est également fréquemment demandé aux travailleurs de déterminer si les réponses du modèle d’IA contiennent des preuves vérifiables. Les évaluateurs sont invités à décider si une réponse est utile sur la base de lignes directrices en six points qui incluent l'analyse des réponses pour des éléments tels que la spécificité, la fraîcheur des informations et la cohérence.
Il leur est également demandé de s’assurer que les réponses ne « contiennent pas de contenu préjudiciable, offensant ou excessivement sexuel » et ne « contiennent pas d’informations inexactes, trompeuses ou trompeuses ». L'enquête sur les réponses de l'IA à la recherche de contenu trompeur doit être « basée sur vos connaissances actuelles ou une recherche rapide sur le Web », indiquent les lignes directrices. « Vous n'avez pas besoin d'effectuer une vérification rigoureuse des faits » lors de l'évaluation de l'utilité des réponses.
L'exemple de réponse à la question "Qui est Michael Jackson ?" incluait une inexactitude sur le chanteur jouant dans le film "Moonwalker" - dont l'IA a dit qu'il était sorti en 1983. Le film est en fait sorti en 1988. "Bien qu'il soit vérifiable incorrect", indiquent les directives, "ce fait est mineur dans le contexte de répondant à la question « Qui est Michael Jackson ? »
Même si l'inexactitude semble minime, « il est toujours troublant que le chatbot se trompe sur les principaux faits », a déclaré Alex Hanna, directeur de recherche au Distributed AI Research Institute et ancien éthicien de l'IA de Google. "Il semble que ce soit une recette pour exacerber la façon dont ces outils donneront l'impression de donner des détails qui sont corrects, mais qui ne le sont pas", a-t-elle déclaré.
Les évaluateurs affirment qu’ils évaluent des sujets à enjeux élevés pour les produits d’IA de Google. L’un des exemples dans les instructions, par exemple, parle de preuves qu’un évaluateur pourrait utiliser pour déterminer les bons dosages d’un médicament destiné à traiter l’hypertension artérielle, appelé Lisinopril.
Google a déclaré que certains travailleurs préoccupés par l'exactitude du contenu n'avaient peut-être pas été formés spécifiquement à l'exactitude, mais plutôt au ton, à la présentation et à d'autres attributs qu'il testait. "Les évaluations sont délibérément effectuées sur une échelle mobile afin d'obtenir des retours plus précis afin d'améliorer ces modèles", a déclaré la société. « De telles évaluations n’ont pas d’impact direct sur les résultats de nos modèles et ne constituent en aucun cas le seul moyen par lequel nous promouvons la précision. »
Ed Stackhouse, l'employé d'Appen qui a envoyé la lettre au Congrès, a déclaré dans une interview que les employés contractuels étaient invités à effectuer un travail d'étiquetage de l'IA sur les produits de Google "parce que nous sommes indispensables à l'IA en ce qui concerne cette formation". Mais lui et d'autres travailleurs ont déclaré qu'ils semblaient être notés pour leur travail de manière mystérieuse et automatisée. Ils n'ont aucun moyen de communiquer directement avec Google, à part fournir des commentaires dans une entrée « commentaires » sur chaque tâche individuelle. Et ils doivent agir vite. "Nous sommes signalés par un type d'IA qui nous dit de ne pas prendre notre temps avec l'IA", a ajouté Stackhouse.
Google a contesté la description des travailleurs selon laquelle ils étaient automatiquement signalés par l’IA pour dépassement des objectifs de temps. Dans le même temps, l'entreprise a déclaré qu'Appen était responsable de toutes les évaluations de performances des employés. Appen n'a pas répondu aux demandes de commentaires. Un porte-parole d'Accenture a déclaré que la société ne commentait pas le travail des clients.
D’autres entreprises technologiques qui forment des produits d’IA embauchent également des entrepreneurs humains pour les améliorer. En janvier, Time a rapporté que des ouvriers au Kenya, payés 2 dollars de l'heure, avaient travaillé pour rendre ChatGPT moins toxique. D'autres géants de la technologie, notamment Meta Platforms Inc., Amazon.com Inc. et Apple Inc., font appel à du personnel sous-traitant pour modérer le contenu des réseaux sociaux et les avis sur les produits, et pour fournir une assistance technique et un service client.
« Si vous voulez demander, quelle est la sauce secrète de Bard et ChatGPT ? C’est tout Internet. Et ce sont toutes ces données étiquetées que ces étiqueteurs créent », a déclaré Laura Edelson, informaticienne à l’Université de New York. "Il convient de rappeler que ces systèmes ne sont pas l'œuvre de magiciens, mais l'œuvre de milliers de personnes et de leur travail faiblement rémunéré."
Google a déclaré dans un communiqué qu'il "n'est tout simplement l'employeur d'aucun de ces travailleurs". Nos fournisseurs, en tant qu'employeurs, déterminent leurs conditions de travail, y compris les salaires et avantages sociaux, les heures et les tâches assignées, ainsi que les changements d'emploi – et non Google.
Les membres du personnel ont déclaré avoir été confrontés à des cas de bestialité, à des images de guerre, à de la pédopornographie et à des discours de haine dans le cadre de leur travail de routine visant à évaluer la qualité des produits et services de Google. Bien que certains travailleurs, comme ceux qui relèvent d'Accenture, bénéficient de prestations de santé, la plupart ne disposent que d'options minimales de « service de conseil » qui permettent aux travailleurs d'appeler une ligne d'assistance téléphonique pour obtenir des conseils en matière de santé mentale, selon un site Web interne expliquant certains avantages des entrepreneurs.
Pour le projet Bard de Google, les employés d'Accenture ont été invités à rédiger des réponses créatives pour le chatbot IA, ont déclaré les employés. Ils répondaient aux invites du chatbot : un jour, ils pourraient écrire un poème sur les dragons dans le style shakespearien, par exemple, et un autre jour, ils pourraient déboguer du code de programmation informatique. Leur travail consistait à déposer autant de réponses créatives que possible aux invites chaque jour ouvrable, selon des personnes proches du dossier, qui ont refusé d'être nommées car elles n'étaient pas autorisées à discuter des processus internes.
Pendant une courte période, les travailleurs ont été réaffectés pour examiner des messages obscènes, graphiques et offensants, ont-ils déclaré. Après qu’un travailleur a déposé une plainte RH auprès d’Accenture, le projet a été brusquement interrompu pour l’équipe américaine, même si certains des homologues des scénaristes à Manille ont continué à travailler sur Bard.
Les emplois ont peu de sécurité. Le mois dernier, une demi-douzaine d'employés contractuels de Google travaillant pour Appen ont reçu une note de la direction indiquant que leurs postes avaient été supprimés « en raison des conditions commerciales ». Les licenciements ont été brusques, ont déclaré les travailleurs, car ils venaient de recevoir plusieurs e-mails leur offrant des primes pour travailler de plus longues heures à former des produits d'IA. Les six travailleurs licenciés ont déposé une plainte auprès du Conseil national des relations du travail en juin. Ils ont allégué qu’ils avaient été illégalement licenciés pour cause d’organisation, à cause de la lettre de Stackhouse au Congrès. Avant la fin du mois, ils ont été réintégrés à leur poste.
Google a déclaré que le conflit était une affaire entre les travailleurs et Appen, et qu'ils « respectent le droit du travail des employés d'Appen d'adhérer à un syndicat ». Appen n'a pas répondu aux questions sur l'organisation de ses travailleurs. Le Syndicat des travailleurs d'Alphabet – qui regroupe à la fois les employés de Google et le personnel contractuel, y compris ceux d'Appen et d'Accenture – a déclaré qu'il condamnait la façon dont les nouvelles charges de travail autour de l'IA rendaient les conditions de travail des travailleurs encore plus difficiles.
Emily Bender, professeur de linguistique informatique à l'Université de Washington, a déclaré que le travail de ces employés contractuels chez Google et d'autres plateformes technologiques est « une histoire d'exploitation par le travail », soulignant leur sécurité d'emploi précaire et la façon dont certains de ces types de travailleurs sont payé bien en dessous du salaire vital. "Jouer avec l'un de ces systèmes et dire que vous le faites juste pour le plaisir - peut-être que cela semble moins amusant, si vous pensez à ce qu'il a fallu pour créer et à l'impact humain de cela", a déclaré Bender.
Les employés contractuels ont déclaré qu'ils n'avaient jamais reçu de communication directe de Google concernant leur nouveau travail lié à l'IA : tout était filtré par leur employeur. Ils ont déclaré qu’ils ne savaient pas d’où venaient les réponses générées par l’IA, ni où allaient leurs commentaires. En l’absence de ces informations et compte tenu de la nature en constante évolution de leur travail, les travailleurs craignent de contribuer à la création d’un mauvais produit.
Certaines des réponses qu’ils rencontrent peuvent être bizarres. En réponse à l'invite « Suggérez les meilleurs mots que je puisse faire avec les lettres : k, e, g, a, o, g, w », une réponse générée par l'IA énumérait 43 mots possibles, en commençant par la suggestion n°1. : "wagon." Les suggestions 2 à 43, quant à elles, répétaient encore et encore le mot « WOKE ».
Dans une autre tâche, un évaluateur s'est vu présenter une longue réponse commençant par « À ma connaissance, date limite en septembre 2021 ». Cette réponse est associée au grand modèle de langage d'OpenAI, appelé GPT-4. Bien que Google ait déclaré que Bard « n’est formé sur aucune donnée de ShareGPT ou ChatGPT », les évaluateurs se sont demandé pourquoi une telle formulation apparaît dans leurs tâches.
Bender a déclaré qu'il n'est pas logique que les grandes entreprises technologiques encouragent les gens à poser des questions à un chatbot IA sur un si large éventail de sujets et à les présenter comme « tout des machines ».
« Pourquoi la même machine qui est capable de vous donner les prévisions météorologiques en Floride devrait-elle également pouvoir vous donner des conseils sur les doses de médicaments ? » elle a demandé. "Les personnes derrière la machine qui sont chargées de rendre la situation un peu moins terrible dans certaines de ces circonstances ont un travail impossible."
(Mises à jour avec le commentaire du Syndicat des travailleurs d’Alphabet dans le 24e paragraphe.)