Report 4077

En juillet dernier, Google a modifié sa politique de confidentialité en huit mots, ce qui représente une étape importante dans sa course à la construction de la prochaine génération d'intelligence artificielle.

Enfoui dans des milliers de mots dans son document, Google a peaufiné la formulation de la façon dont il utilisait les données pour ses produits, ajoutant que les informations publiques pouvaient être utilisées pour former son chatbot IA et d'autres services. Ce changement subtil n'était pas propre à Google. Alors que les entreprises cherchent à former leurs modèles d'IA sur des données protégées par les lois sur la confidentialité, elles réécrivent soigneusement leurs conditions générales pour y inclure des mots comme « intelligence artificielle », « apprentissage automatique » et « IA générative ».

Certaines modifications des conditions de service ne se limitent qu'à quelques mots. D'autres incluent l'ajout de sections entières pour expliquer le fonctionnement des modèles d'IA générative et les types d'accès dont ils disposent aux données des utilisateurs. Snap, par exemple, a averti ses utilisateurs de ne pas partager d'informations confidentielles avec son IA. chatbot car il serait utilisé dans son entraînement, et Meta a alerté les utilisateurs en Europe que les publications publiques sur Facebook et Instagram seraient bientôt utilisées pour entraîner son grand modèle de langage.

Ces conditions générales, que beaucoup de gens ont longtemps ignorées, sont désormais contestées par certains utilisateurs qui sont des écrivains, des illustrateurs et des artistes visuels et qui craignent que leur travail soit utilisé pour entraîner les produits qui menacent de les remplacer.

"Nous sommes déjà détruits à gauche, à droite et au centre par un contenu de qualité inférieure qui est essentiellement formé sur nos produits, et maintenant nous sommes mis au rebut", a déclaré Sasha Yanshin, une personnalité de YouTube et co-fondatrice d'un site de recommandation de voyages.

Ce mois-ci, M. Yanshin a annulé son abonnement à Adobe en raison d'un changement de sa politique de confidentialité. « Le magasin de bricolage qui vous vend un pinceau ne peut pas être propriétaire du tableau que vous faites avec, n'est-ce pas ? », a-t-il déclaré.

Pour former l'IA générative, les entreprises technologiques peuvent puiser dans deux bassins de données : les données publiques et les données privées. Les données publiques sont disponibles sur le Web et tout le monde peut les consulter, tandis que les données privées incluent des éléments tels que les SMS, les e-mails et les publications sur les réseaux sociaux créés à partir de comptes privés.

Les données publiques sont une ressource limitée, et un certain nombre d'entreprises ne sont qu'à quelques années de les utiliser entièrement pour leurs systèmes d'IA. Mais les géants de la technologie comme Meta et Google sont assis sur un trésor de données privées qui pourrait être dix fois plus important que son homologue public, a déclaré Tamay Besiroglu, directeur associé d'Epoch, un institut de recherche sur l'IA.

Ces données pourraient représenter « un avantage substantiel » dans la course à l'IA, a déclaré M. Besiroglu. Le problème est d'y avoir accès. Les données privées sont principalement protégées par un patchwork de lois fédérales et étatiques sur la confidentialité qui donnent aux utilisateurs une sorte de licence sur le contenu qu'ils créent en ligne, et les entreprises ne peuvent pas les utiliser pour leurs propres produits sans leur consentement.

En février, la Federal Trade Commission a averti les entreprises technologiques que modifier les politiques de confidentialité pour supprimer rétroactivement les anciennes données pourrait être « injuste ou trompeur ».

La formation de l'IA pourrait éventuellement utiliser les types de données les plus personnelles, comme les messages adressés aux amis et à la famille. Un porte-parole de Google a déclaré qu'un petit groupe d'utilisateurs test, avec leur autorisation, avait permis à Google de former son IA sur certains aspects de leurs e-mails personnels.

Google a ajouté dans un communiqué que le changement de sa politique de confidentialité « clarifie simplement que les services plus récents comme Bard (maintenant Gemini) sont également inclus. Nous n'avons pas commencé à former des modèles sur des types de données supplémentaires en fonction de ce changement de langage ».

Certaines entreprises ont eu du mal à équilibrer leur soif de nouvelles données avec les préoccupations des utilisateurs en matière de confidentialité. En juin, Adobe a fait face à des réactions négatives sur les réseaux sociaux après avoir modifié sa politique de confidentialité pour inclure une phrase sur l'automatisation que beaucoup de ses clients ont interprétée comme ayant à voir avec le scraping de l'IA.

L'entreprise a expliqué les changements dans deux articles de blog, affirmant que les clients les avaient mal compris. Le 18 juin, Adobe a ajouté des explications en haut de certaines sections de ses conditions générales.

« Nous n'avons jamais formé l'IA générative sur le contenu client, pris possession du travail d'un client ou autorisé l'accès au contenu client au-delà des exigences légales », a déclaré Dana Rao, avocat général et responsable de la confiance d'Adobe, dans un communiqué.

Cette année, Snap a mis à jour sa politique de confidentialité sur les données collectées par My AI, son IA. chatbot avec lequel les utilisateurs peuvent avoir des conversations.

Un porte-parole de Snap a déclaré que l'entreprise avait donné des « avertissements préalables » sur la manière dont elle utilisait les données pour former son IA avec le consentement de ses utilisateurs.

En septembre, X a ajouté une seule phrase à sa politique de confidentialité sur l'apprentissage automatique et l'IA. L'entreprise n'a pas répondu à une demande de commentaire.

Le mois dernier, Meta a alerté ses utilisateurs Facebook et Instagram en Europe qu'elle utiliserait des publications accessibles au public pour former son IA à partir du 26 juin, ce qui a provoqué une certaine réaction. Elle a ensuite suspendu ses projets après que le Centre européen pour les droits numériques a déposé des plaintes contre l'entreprise dans 11 pays européens.

Aux États-Unis, où les lois sur la confidentialité sont moins strictes, Meta a pu utiliser des publications publiques sur les réseaux sociaux pour entraîner son IA sans qu'une telle alerte ne soit émise. La société a annoncé en septembre que la nouvelle version de son grand modèle linguistique avait été entraînée sur des données utilisateur sur lesquelles sa précédente itération n'avait pas été entraînée.

Meta a déclaré que son IA ne lisait pas les messages envoyés entre amis et famille sur des applications comme Messenger et WhatsApp, à moins qu'un utilisateur n'ait tagué son chatbot IA dans un message.

"L'utilisation d'informations accessibles au public pour entraîner des modèles d'IA est une pratique courante dans l'industrie et n'est pas propre à nos services", a déclaré un porte-parole de Meta dans un communiqué.

De nombreuses entreprises ajoutent également à leurs conditions d'utilisation une clause qui protège leur contenu contre le scraping pour entraîner des IA concurrentes.

M. Yanshin a déclaré qu’il espérait que les régulateurs pourraient agir rapidement pour créer des protections pour les petites entreprises comme la sienne contre les entreprises d’IA, et que le trafic vers son site Web de voyage avait chuté de 95 % depuis qu’il a commencé à concurrencer les agrégateurs d’IA.

« Les gens vont débattre des avantages et des inconvénients du vol de données parce que cela fait un bon chatbot », a-t-il déclaré. « Dans trois, quatre ou cinq ans, il se pourrait que des segments entiers de cette industrie créative ne soient plus là, car nous serons tout simplement décimés. »

Pour des exemples précis de la façon dont les textes auraient été modifiés, voir le rapport original.

Problème 4077

Quand les conditions d'utilisation changent pour laisser la place à la formation en IA