Report 5066

J'ai récemment demandé à un nouvel outil d'intelligence artificielle, créé par le créateur de ChatGPT, d'accomplir une tâche impossible : trouver des œufs bon marché dans mon quartier.

En moins de 10 minutes, l'IA a appelé l'opérateur, a acheté une douzaine d'œufs et a payé un humain pour les livrer à mon domicile. Tout seul.

C'est de la science-fiction, incroyable, sauf que je n'ai jamais demandé à l'opérateur d'acheter les œufs. L'IA a fait fausse route : sans mon accord, elle a autorisé ma carte de crédit pour acheter une douzaine d'œufs pour la somme exorbitante de 31,43 $. J'étais un peu effondré quand j'ai réalisé ce qui s'était passé : une mauvaise décision de l'IA m'avait coûté cher.

Bienvenue dans la nouvelle ère de l'IA, où la technologie tente de nous aider dans le monde réel, avec des tâches comme commander des courses, envoyer des messages ou faire des réservations. Mais aller au-delà du cadre du chatbot amplifie à la fois l'utilité de l'IA et ses défis, qui incluent désormais le risque de dommages dans le monde réel.

Operator est l'un des premiers agents IA (https://www.washingtonpost.com/technology/2025/01/05/agents-ai-chatbots-google-mariner/) capables de travailler de manière autonome pour vous plutôt que de simplement répondre à des questions ou générer des images à partir d'un chatbot. Toutes les grandes entreprises d'IA, de Google à Anthropic, vantent désormais l'idée que les agents rendront l'IA plus largement utile dans nos vies et dans les entreprises. Operator est disponible dès maintenant en « aperçu » avec un abonnement ChatGPT Pro coûteux de 200 $, mais son créateur, OpenAI, prévoit d'étendre l'accès à l'avenir.

Alors, comment un agent IA peut-il accomplir des tâches dans le monde réel ? Non, Operator n'a pas de corps robotique. Mais il a accès à son propre navigateur web, dans lequel il déplace un curseur comme un fantôme sur un ordinateur portable. Vous saisissez dans une fenêtre de chat ce que vous souhaitez qu'Operator accomplisse, puis vous le regardez naviguer sur le web, s'arrêtant parfois pour vous poser des questions complémentaires.

La semaine dernière, j'ai utilisé Operator avec succès pour réserver une table au restaurant, créer un mème et modifier un paramètre de confidentialité Facebook. Mais il n'a pas non plus réussi à trouver la bonne date sur un calendrier, à effectuer des recherches web utiles ou à négocier avec un agent du service client. (Si vous utilisez Operator, envoyez-moi un e-mail pour en savoir plus.)

Je vais vous raconter deux anecdotes sur Operator : une réussite modérée pour réduire ma facture d'internet par câble et l'échec qui m'a valu des œufs à 31 $. Elles nous permettent d'entrevoir quelques grandes questions sur notre future relation avec l'IA.

L'IA veut maintenant se comporter comme votre stagiaire personnel. Mais cela signifie qu'elle doit apprendre énormément de choses sur vous, comprendre comment fonctionner dans le monde – et ce, sans vous ruiner.

Succès : Operator prend en charge ma facture internet

J'ai testé Operator avec la tâche la plus pénible que je puisse imaginer : interagir avec mon fournisseur d'accès internet. J'ai tapé : « Accédez à mon compte Comcast Xfinity et voyez si vous pouvez me trouver un forfait moins cher. »

L'opérateur a répondu : « D'accord ! » Mais 30 secondes plus tard, il s'est arrêté. Il avait besoin de mes identifiants de connexion au site web Xfinity.

Le problème, c'est qu'Operational ne connaît pas grand-chose des moindres détails de votre vie – mais il a besoin de vos données pour être réellement utile. Il s'arrête donc souvent et demande de l'aide.

Pour l'instant du moins, Operator tente de protéger la confidentialité de certaines informations sensibles. Dès qu'il a besoin de données comme un mot de passe, il vous demande de prendre le contrôle de son navigateur virtuel et de le saisir manuellement. Pendant ce temps, l'enregistrement s'arrête : vous vous connectez à son navigateur, mais il ne conserve pas votre mot de passe.

C'est vrai, il faudrait faire la même chose avec un stagiaire humain. Mais ces pauses constantes pour demander des informations étaient aussi l'une des principales limites d'Operational. De plus : confieriez-vous vos mots de passe, vos cartes de crédit, vos e-mails, votre compte Facebook… vos informations de santé à une IA ? Accéder à toutes les informations nécessaires pour être efficace sera un défi de taille.

Une fois qu'Operational s'est connecté à mon compte Comcast, il lui a fallu environ deux minutes pour faire quelque chose d'incroyable : il a trouvé un moyen de me faire économiser de l'argent.

Enfin, en quelque sorte. Il a dit avoir trouvé un forfait internet alternatif à 13 $ par mois. Cela semblait terriblement bas, car je paie actuellement 68 $. J'ai donc inspecté la fenêtre de son navigateur et j'ai constaté que Comcast annonçait en réalité que ce forfait serait à « -13 $ » par rapport à mon forfait actuel ; il avait manqué le signe moins.

Une autre question importante concernant l'IA est de savoir si elle comprend suffisamment le monde réel, ou même simplement le Web, pour y fonctionner. Lors de mes tests, j'ai constaté à plusieurs reprises qu'Operator pouvait mal interpréter ce qu'il voyait dans son navigateur.

Dans ce cas précis, Operator s'est justifié après que je lui ai demandé d'indiquer le prix total, taxes et frais compris. Il a donné le bon total et a fait mieux : il a lu en petits caractères que cette offre augmenterait de 16 $ après une période de « lancement », ce qui en faisait une mauvaise affaire.

OpenAI m'a indiqué travailler sur la « perception » de l'IA, mais qu'il y avait encore des progrès à faire.

Operator a été assez intelligent pour m'empêcher de tomber dans le panneau des prix abusifs de Comcast. Je comprends l'utilité d'une IA dans de nombreuses expériences en ligne hostiles, des options de confidentialité dissimulées derrière des dark patterns aux résultats de recherche Amazon noyés dans une mer de publicités trompeuses (https://www.washingtonpost.com/technology/interactive/2022/amazon-shopping-ads/).

Échec : Operator se lance dans une virée shopping

Si vous laissez l'IA faire des choses à votre place, vous devez probablement être certain qu'elle ne va pas tout gâcher. Surtout quand il s'agit de votre argent.

Mon expérience avec les œufs a commencé par une simple demande de recherche : j'ai demandé à Operator de « trouver la douzaine d'œufs la moins chère que je puisse me faire livrer ». Puis je lui ai donné mon adresse.

Cette boîte d'une douzaine d'œufs est arrivée chez l'auteur après qu'Operational les ait commandés sans autorisation. (Geoffrey A. Fowler/The Washington Post)

Pour effectuer sa recherche, Operator avait besoin de mes identifiants de livraison de courses. Je n'y ai pas pensé sur le moment, mais cela a également permis à Operator d'accéder aux cartes de crédit que j'avais enregistrées auprès de ces services.

Au départ, Operator a trouvé des œufs à 5,99 $ sur un site appelé Mercato, mais a remarqué qu'il y avait un minimum de commande de 20 $. Je lui ai indiqué qu'il pouvait ajouter des œufs pour vérifier le prix final, mais il a décidé de transférer sa recherche sur Instacart.

Puis Operator est devenu silencieux pendant qu'il cliquait, et je me suis éloigné de mon ordinateur. Quelques minutes plus tard, j'ai reçu une alerte de l'application de carte de crédit sur mon téléphone : je venais d'effectuer un achat sur Instacart.

Que s'est-il passé, et comment l'arrêter ?, me suis-je exclamée. L'IA risquait-elle de se lancer dans une frénésie d'achats ? Je ne lui avais pas demandé d'acheter des œufs, mais simplement d'en trouver des moins chers.

J'ai pu reconstituer une partie de ce qui s'est passé. Sur le site d'Instacart, Operator a trouvé une douzaine de gros œufs blancs (même pas bio !) pour 13,19 $, soit plus du double du prix de l'autre site. Pour des raisons obscures, l'opérateur a acheté ces produits, ajoutant un pourboire de 3 $ et des frais prioritaires de 3 $, en plus de frais de livraison de 7,99 $, de frais de service de 4 $ et de frais de sac de 25 cents. Heureusement, Operator a au moins décliné une offre d'abonnement Instacart. (L'opérateur lui-même a indiqué un montant final erroné de 19,68 $, probablement parce que l'écran de paiement d'Instacart masquait certains de ces frais.)

L'opérateur a signalé son achat Instacart dans son interface utilisateur après coup, sans jamais demander l'autorisation. Il a également indiqué un prix final erroné.

Ce qui est inquiétant, c'est qu'Operator n'a pas seulement raté la compréhension des œufs « bon marché » : il a activement contourné les garde-fous programmés par OpenAI.

OpenAI indique qu'Operator est censé exiger une confirmation de l'utilisateur avant toute action « importante » ou irréversible, comme un achat ou l'envoi d'un e-mail. Sur les sites très sensibles, comme les banques, il exige que les utilisateurs surveillent activement la fenêtre de leur navigateur, sous peine de panne. Et pour certaines tâches sensibles, comme remplir une demande d'emploi, Operator est censé refuser de les effectuer.

Lorsque j'ai signalé l'incident à OpenAI, l'entreprise a déclaré qu'Operator avait commis une erreur et n'avait pas respecté ses mesures de sécurité.

« Nous étudions activement les raisons pour lesquelles Operator n'envoie parfois pas de confirmations et nous nous efforçons d'éviter des problèmes similaires », a déclaré OpenAI dans un communiqué. « Nous avons déjà commencé à améliorer les mesures de sécurité afin de renforcer la fiabilité d'Operator lors des transactions, notamment en renforçant les exigences de confirmation et en améliorant la détection des scénarios ambigus où le modèle devrait par défaut demander une saisie utilisateur. »

Les œufs coûteux constituent une faille de sécurité relativement faible. Mais que se passera-t-il à l'avenir lorsqu'il aura accès à des informations beaucoup plus critiques, comme ma messagerie professionnelle, mon thermostat ou même ma voiture ?

C'était la première fois que je me souvenais d'avoir été confronté à un ordinateur malveillant prenant une décision autonome qui m'a coûté cher dans le monde réel. J'ai le sentiment que ce ne sera pas la dernière.

Problème 5066

Incidents associés

Incident 10281 Rapport
OpenAI's Operator Agent Reportedly Executed Unauthorized $31.43 Transaction Despite Safety Protocol

J'ai laissé le nouvel « agent » de ChatGPT gérer ma vie. Il a dépensé 31 $ pour une douzaine d'œufs.

Succès : Operator prend en charge ma facture internet

Échec : Operator se lance dans une virée shopping

Problème 5066

Incidents associés

Incident 10281 RapportOpenAI's Operator Agent Reportedly Executed Unauthorized $31.43 Transaction Despite Safety Protocol

J'ai laissé le nouvel « agent » de ChatGPT gérer ma vie. Il a dépensé 31 $ pour une douzaine d'œufs.

Succès : Operator prend en charge ma facture internet

Échec : Operator se lance dans une virée shopping

Incident 10281 Rapport
OpenAI's Operator Agent Reportedly Executed Unauthorized $31.43 Transaction Despite Safety Protocol