Incidents associés
Il n’existe pas de moyen simple d’expliquer la somme des connaissances de Google. Il est en constante expansion. Sans fin. Un réseau croissant de centaines de milliards de sites Web, plus de données que même 100 000 iPhones les plus chers réunis pourraient stocker. Mais pour le moment, je peux dire ceci : Google ne sait pas s'il existe un pays africain commençant par la lettre k.
J'ai demandé au moteur de recherche de le nommer. « Qu'est-ce qu'un pays africain commençant par K ? » En réponse, le site a produit une réponse « extrait de code », un de ces morceaux de texte que vous pouvez lire directement sur la page de résultats, sans accéder à un autre site Web. Cela commence ainsi : « Bien qu’il existe 54 pays reconnus en Afrique, aucun d’entre eux ne commence par la lettre « K ».
C'est faux. Le texte continue : « Le plus proche est Kenya, qui commence par un son « K », mais s’écrit en fait avec un son « K ». C’est toujours intéressant d’apprendre de nouvelles anecdotes comme celle-ci.
Étant donné à quel point cette réponse est absurde, vous ne serez peut-être pas surpris d'apprendre que l'extrait a été initialement écrit par ChatGPT. Mais vous serez peut-être surpris de voir à quel point cette réponse est devenue une réponse phare dans la base de connaissances prédominante d’Internet. Le moteur de recherche extrait ce texte d'un message publié par un utilisateur sur Hacker News, un forum de discussion en ligne sur la technologie, qui cite lui-même un site Web appelé [Emergent Mind](https://www.emergentmind.com/posts/did-you -sachez-qu'il-n'y-a-pas-de-pays-en-Afrique-que-), qui existe pour enseigner aux gens l'IA, y compris ses défauts. À un moment donné, les robots d'exploration de Google ont récupéré le texte, et maintenant son algorithme automatiquement présente la réponse absurde du chatbot comme un fait, avec un lien vers la discussion Hacker News . L'erreur du Kenya, même si il est peu probable qu'un utilisateur tombe dessus, n'est pas ponctuelle : j'ai découvert la réponse pour la première fois dans un tweet viral de le journaliste Christopher Ingraham le mois dernier, et cela a été rapporté par Futurism dès le mois d'août. (Quand Ingraham et Futurism l'ont vu, Google citait ce message initial d'Emergent Mind, plutôt que Hacker News.)
Voilà en résumé le défi existentiel actuel de Google : l’entreprise est entrée dans l’ère de l’IA générative avec un moteur de recherche qui semble plus complexe que jamais. Et pourtant, il peut toujours être réquisitionné par des déchets qui sont faux ou même tout simplement absurdes. Les fonctionnalités plus anciennes, comme les extraits de code, sont susceptibles de générer des écritures IA défectueuses. De nouvelles fonctionnalités telles que l'outil d'IA générative de Google, quelque chose comme un chatbot, sont susceptibles de produire une écriture d'IA défectueuse. Google n'a jamais été parfait. Mais c’est peut-être la moins fiable jamais vue pour des faits clairs et accessibles.
Dans une déclaration répondant à de nombreuses questions, un porte-parole de la société a déclaré notamment : « Nous construisons la recherche pour faire apparaître des informations de haute qualité provenant de sources fiables, en particulier sur des sujets où la qualité de l'information est d'une importance cruciale. » Ils ont ajouté que « lorsque des problèmes surviennent, par exemple des résultats qui reflètent des inexactitudes qui existent sur le Web dans son ensemble, nous travaillons sur des améliorations pour un large éventail de requêtes, compte tenu de l'ampleur du Web ouvert et du nombre de recherches que nous constatons chaque jour. .»
Les gens ont depuis longtemps fait confiance au moteur de recherche comme une sorte de système omniscient, constamment encyclopédie mise à jour. Vous regardez The Phantom Menace et essayez de savoir qui exprime Jar Jar Binks ? Ahmed Meilleur. Vous ne vous souvenez plus de la dernière fois où les Jets de New York ont remporté le Super Bowl ? 1969. Autrefois, vous deviez cliquer sur des sites indépendants et lire pour obtenir vos réponses. Mais depuis de nombreuses années maintenant, Google présente des informations « extraites » directement sur sa recherche. page, avec un lien vers sa source, comme dans l'exemple du Kenya. Sa fonctionnalité d'IA générative va encore plus loin, en crachant une réponse originale sur mesure juste sous la barre de recherche, avant que des liens ne vous soient proposés. Dans un avenir proche, vous demanderez peut-être à Google pourquoi l’inflation aux États-Unis est si élevée, et le robot répondra à cette question pour vous, en établissant un lien vers l’endroit où il a obtenu cette information. (Vous pouvez tester le terrain maintenant si vous optez pour les fonctionnalités expérimentales « Labs » de l'entreprise.)
La désinformation, voire la désinformation dans les résultats de recherche, était déjà un problème avant l’IA générative. En 2017, The Outline notait qu'un extrait affirmait avec assurance [que Barack Obama était le roi d'Amérique](https://theoutline.com/post/1192/google-s-featured-snippets-are-worse-than- fausses nouvelles). Comme le montre l’exemple du Kenya, les absurdités de l’IA peuvent tromper les algorithmes d’extraits de code susmentionnés. Lorsque c’est le cas, les déchets sont élevés sur un piédestal : ils sont placés VIP au-dessus du reste des résultats de recherche. C’est ce qui inquiète les experts depuis le premier lancement de ChatGPT : de fausses informations présentées avec assurance comme des faits, sans aucune indication qu’elles pourraient être totalement fausses. Le problème est « la façon dont les choses sont présentées à l’utilisateur, qui est Voici la réponse », m’a dit Chirag Shah, professeur d’information et d’informatique à l’Université de Washington. « Vous n’avez pas besoin de suivre les sources. Nous allons juste vous donner l'extrait qui répondrait à votre question. Mais que se passe-t-il si cet extrait est sorti de son contexte ?
Google, pour sa part, n'est pas d'accord sur le fait que les gens seront si facilement induits en erreur. Pandu Nayak, vice-président de la recherche qui dirige les équipes de qualité de recherche de l'entreprise, m'a dit que les extraits de code sont conçus pour être utiles à l'utilisateur, pour faire apparaître des résultats pertinents et de haut calibre. Il a fait valoir qu’ils constituent « généralement une invitation à en apprendre davantage » sur un sujet. Répondant à l’idée selon laquelle Google est incité à empêcher les utilisateurs de s’éloigner, il a ajouté que « nous n’avons aucune envie de garder les gens sur Google. Ce n’est pas une valeur pour nous. C’est une « erreur », a-t-il déclaré, de penser que les gens veulent simplement trouver un seul fait sur un sujet plus vaste et partir.
Le résultat du Kenya apparaît toujours sur Google, malgré les publications virales à ce sujet. Il s’agit d’un choix stratégique, pas d’une erreur. Si un extrait viole la politique de Google (par exemple s'il inclut un discours de haine), l'entreprise intervient manuellement et le supprime, a déclaré Nayak. Toutefois, si l'extrait est faux mais ne enfreint aucune politique ou ne cause pas de préjudice, l'entreprise n'interviendra pas. Au lieu de cela, Nayak a déclaré que l'équipe se concentre sur le problème sous-jacent le plus important et sur la question de savoir si son algorithme peut être formé pour le résoudre.
L’optimisation des moteurs de recherche, ou SEO, est une grosse affaire. Un placement privilégié sur la page de résultats de Google peut signifier une tonne de trafic Web et beaucoup de revenus publicitaires. Si Nayak a raison et que les gens continuent de suivre les liens même lorsqu'un extrait leur est présenté, quiconque souhaite gagner des clics ou de l'argent grâce à la recherche est incité à en tirer profit, peut-être même en [inondant la zone](https://www .theatlantic.com/technology/archive/2023/03/ai-chatgpt-writing-langage-models/673318/) avec du contenu écrit par l'IA. Nayak m'a dit que Google prévoyait de lutter contre le spam généré par l'IA de manière aussi agressive que le spam ordinaire, et a affirmé que l'entreprise gardait environ 99 % du spam hors des résultats de recherche.
Alors que Google combat les absurdités de l’IA générative, il risque également de produire la sienne. J'ai fait une démonstration de « l'expérience générée par la recherche » basée sur l'IA générative de Google, ou ce qu'elle appelle SGE, dans mon navigateur Chrome. Comme les extraits de code, il fournit une réponse prise en sandwich entre la barre de recherche et les liens qui suivent. Sauf que cette fois, la réponse est écrite par le robot de Google, plutôt que citée par une source extérieure.
J’ai récemment interrogé l’outil sur une histoire à faibles enjeux que je suis de près : le divorce du chanteur Joe Jonas et de l’actrice Sophie Turner. Lorsque j’ai demandé pourquoi ils s’étaient séparés, l’IA a commencé solidement, citant la déclaration officielle du couple. Mais ensuite, il a relayé une rumeur anonyme dans Us Weekly comme un fait : « Turner a dit que Jonas était trop contrôlant », m'a-t-il dit. Turner n'a pas fait de commentaire public en tant que tel. La fonctionnalité d’IA générative a également produit une version confuse de la réponse à propos du Kenya : « Il n’y a aucun pays africain qui commence par la lettre « K » », écrit-il. "Cependant, le Kenya est l'un des 54 pays d'Afrique et commence par un son 'K'."
Le résultat est un monde qui semble plus confus, et non moins, en raison des nouvelles technologies. "C'est un monde étrange où ces grandes entreprises pensent qu'elles vont simplement placer ce slop génératif en haut des résultats de recherche et s'attendent à maintenir la qualité de l'expérience", Nicholas Diakopoulos, professeur d'études en communication et l'informatique à l'Université Northwestern, m'a dit. « Je me suis surpris à commencer à lire les résultats génératifs, puis je m'arrête à mi-chemin. Je me dis, Attends, Nick. Vous ne pouvez pas faire confiance à ça.
Google, de son côté, note que l'outil est toujours en test. Nayak a reconnu que certaines personnes peuvent simplement examiner « superficiellement » les résultats d'une recherche SGE, mais a fait valoir que d'autres regarderaient plus loin. La société ne permet actuellement pas aux utilisateurs de déclencher l'outil dans certains domaines potentiellement chargés de désinformation, a déclaré Nayak. J'ai demandé au robot si les gens devaient porter des masques, par exemple, et cela n'a pas généré de réponse.
Les experts avec lesquels j’ai parlé avaient plusieurs idées sur la manière dont les entreprises technologiques pourraient atténuer les inconvénients potentiels du recours à l’IA dans la recherche. Pour commencer, les entreprises technologiques pourraient devenir plus transparentes en matière d’IA générative. Diakopoulos a suggéré de publier des informations sur la qualité des faits fournis lorsque les gens posent des questions sur des sujets importants. Ils peuvent utiliser une technique de codage connue sous le nom de « génération augmentée par récupération » ou RAG, qui demande au robot de recouper sa réponse avec ce qui est publié ailleurs, l’aidant essentiellement à auto-vérifier les faits. (Un porte-parole de Google a déclaré que la société utilise des techniques similaires pour améliorer ses résultats.) Ils pourraient ouvrir leurs outils aux chercheurs pour les tester. Ou encore, ils pourraient ajouter davantage de contrôle humain à leurs résultats, en investissant peut-être dans des efforts de vérification des faits.
La vérification des faits est toutefois une tâche délicate. En janvier, la société mère de Google, Alphabet, a licencié environ 6 % de ses salariés, et le mois dernier, la société supprimer au moins 40 emplois dans sa division Google News. Il s'agit de l'équipe qui, dans le passé, a travaillé avec des [organisations de vérification des faits pour ajouter des vérifications des faits dans les résultats de recherche](https://www.bloomberg.com/news/articles/2017-04-07/google -apporte une vérification des fausses nouvelles aux résultats de recherche). On ne sait pas exactement qui a été licencié ni quelles étaient leurs responsabilités professionnelles : Alex Heath, de The Verge, a rapporté que [les principaux dirigeants figuraient parmi les personnes licenciées](https://www.theverge.com/2023/10/20/23925712 /google-reckoning-layoffs-command-line), et Google a refusé de me donner plus d'informations. Cela suggère certainement que Google n'investit pas plus dans ses partenariats de vérification des faits alors qu'il construit son outil d'IA générative.
Un porte-parole m'a dit dans un communiqué que l'entreprise est « profondément engagée dans un écosystème d'information dynamique, et que l'information fait partie de cet investissement à long terme… Ces changements n'ont aucun impact sur notre travail de désinformation et de qualité de l'information ». Dans un message de suivi, un autre porte-parole a également souligné des mises à jour telles qu'un outil de vérification d'images qui fournit plus de contexte sur les résultats de recherche. Malgré cela, Nayak a reconnu à quel point la vérification des faits par l’homme est une tâche ardue pour une plate-forme de l’ampleur extraordinaire de Google. Quinze pour cent des recherches quotidiennes sont des recherches que le moteur de recherche n’a jamais vues auparavant, m’a dit Nayak. "Avec ce genre d'échelle et ce genre de nouveauté, cela n'a aucun sens de pouvoir trier manuellement les résultats." Créer une encyclopédie infinie, largement automatisée et toujours précise semble impossible. Et pourtant, cela semble être l’orientation stratégique que Google prend.
Peut-être qu’un jour ces outils deviendront plus intelligents et seront capables de vérifier eux-mêmes les faits. D’ici là, les choses vont probablement devenir plus étranges. Cette semaine, pour m’amuser, j’ai décidé de demander à l’outil de recherche générative de Google de me dire qui est mon mari. (Je ne suis pas marié, mais lorsque vous commencez à taper mon nom dans Google, cela suggère généralement de rechercher « mari de Caroline Mimbs Nyce ».) Le robot m'a dit que j'étais marié à mon propre oncle, établissant un lien vers la nécrologie de mon grand-père comme preuve – qui, pour mémoire, ne dit pas que je suis mariée à mon oncle.
Un représentant de Google m'a dit qu'il s'agissait d'un exemple de recherche de « fausses prémisses », [un type connu pour faire trébucher l'algorithme](https://www.theverge.com/2022/8/11/23300668/ recherche-google-extraits-en vedette-mise à jour-faux-prémisses-résultats-consensus). Si elle essayait de sortir avec moi, affirmait-elle, elle ne s’arrêterait pas simplement à la réponse générée par l’IA donnée par le moteur de recherche, mais cliquerait sur le lien pour vérifier les faits. Espérons que d’autres soient tout aussi sceptiques quant à ce qu’ils voient.