Problème 4113
L'intelligence artificielle est formée à partir de données provenant en grande partie d'Internet. Cependant, compte tenu du volume de données nécessaires à l'apprentissage de l'IA, de nombreux modèles finissent par consommer d'autres données générées par l'IA, ce qui peut à son tour affecter négativement le modèle dans son ensemble. L'IA produisant et consommant des données, Internet a le potentiel d'être envahi par les robots, et les humains produiront beaucoup moins de contenu.
La cannibalisation de l'IA est-elle mauvaise ?
L'IA se dévore elle-même. Actuellement, l'intelligence artificielle se développe à un rythme rapide et les données créées par l'homme nécessaires à l'entraînement des modèles s'épuisent](https://theweek.com/tech/ai-running-out-of-data). « Alors qu’ils parcourent le Web à la recherche de nouvelles données pour former leurs prochains modèles – une tâche de plus en plus difficile – les robots d’IA sont susceptibles d’ingérer une partie de leur propre contenu généré par l’IA, créant ainsi une boucle de rétroaction involontaire dans laquelle ce qui était autrefois la sortie d’une IA devient l’entrée d’une autre », a déclaré le New York Times (https://www.nytimes.com/interactive/2024/08/26/upshot/ai-synthetic-data.html). « Lorsque l’IA générative est formée sur son propre contenu, sa sortie peut également s’éloigner de la réalité. » C’est ce qu’on appelle l’effondrement du modèle.
Pourtant, les entreprises d’IA ont les mains liées. « Pour développer des produits d’IA toujours plus avancés, les grandes entreprises technologiques n’auront peut-être pas d’autre choix que d’alimenter leurs programmes avec du contenu généré par l’IA, ou ne seront peut-être tout simplement pas en mesure de séparer le contenu humain du contenu synthétique », a déclaré The Atlantic. Dans l’état actuel des choses, les données synthétiques sont nécessaires pour suivre le rythme de la technologie en pleine croissance. « Malgré des avancées étonnantes, les chatbots et autres outils génératifs tels que Midjourney et Stable Diffusion, qui permettent de créer des images, restent parfois terriblement dysfonctionnels – leurs résultats sont remplis de préjugés, de faussetés et d’absurdités. » Ces inexactitudes se répercutent ensuite sur la prochaine itération du modèle d’IA.
Cela ne veut pas dire que toutes les données générées par l’IA sont mauvaises. « Il existe certains contextes dans lesquels les données synthétiques peuvent aider les IA à apprendre », a déclaré le Times. « Par exemple, lorsque les résultats d’un modèle d’IA plus grand sont utilisés pour former un modèle plus petit, ou lorsque la bonne réponse peut être vérifiée, comme la solution à un problème mathématique ou les meilleures stratégies dans des jeux comme les échecs ou le Go. » En outre, les experts travaillent à créer des ensembles de données synthétiques qui sont moins susceptibles de faire s’effondrer un modèle. « Le filtrage est un domaine de recherche à part entière en ce moment », a déclaré à The Atlantic Alex Dimakis, informaticien à l’Université du Texas à Austin et codirecteur du National AI Institute for Foundations of Machine Learning. « Et nous voyons qu’il a un impact énorme sur la qualité des modèles. »
L’IA est-elle en train de prendre le contrôle d’Internet ?
La question de la formation de nouveaux modèles d’intelligence artificielle pourrait mettre en évidence un problème plus vaste. « Le contenu de l'IA envahit Internet » et le texte généré par « de grands modèles linguistiques remplit des centaines de sites Web, dont CNET et Gizmodo », a déclaré Scientific American. Le contenu de l'IA est également créé beaucoup plus rapidement et en plus grande quantité que le contenu créé par l'homme. « J'ai l'impression que nous sommes en quelque sorte à ce point d'inflexion où beaucoup des outils existants que nous utilisons pour entraîner ces modèles sont rapidement saturés de texte synthétique », a déclaré Veniamin Veselovskyy, étudiant diplômé de l'École polytechnique fédérale de Lausanne, à Scientific American. Les images, les publications sur les réseaux sociaux et les articles créés par l'IA ont déjà inondé Internet.
La quantité monumentale de contenu d'IA sur Internet, y compris les tweets de robots, les images absurdes et les fausses critiques, a donné naissance à une croyance plus sinistre. La théorie de l'Internet mort est la « croyance selon laquelle la grande majorité du trafic Internet, des publications et des utilisateurs ont été remplacés par des robots et du contenu généré par l'IA, et que les gens ne façonnent plus l'orientation d'Internet », a déclaré Forbes. Alors qu'il s'agissait autrefois d'une simple théorie circulant sur le forum 4Chan au début des années 2010, cette croyance a récemment pris de l'ampleur.
Certains pensent que le contenu de l'IA sur Internet va plus loin que le simple fait d'obtenir un engagement sur les réseaux sociaux ou de former des modèles. « La théorie de l'Internet mort s'arrête-t-elle à une agriculture d'engagement inoffensive ? » Jake Renzella, maître de conférences et directeur d'études (informatique) à l'UNSW Sydney, et Vlada Rozova, chercheuse en apprentissage automatique appliqué à l'Université de Melbourne, ont déclaré dans The Conversation. "Ou peut-être que sous la surface se cache une tentative sophistiquée et bien financée pour soutenir les régimes autocratiques, attaquer les opposants et diffuser de la propagande ?"
Heureusement, les experts affirment que la théorie de l'Internet mort n'a pas encore concrétisé. « La grande majorité des publications qui deviennent virales – opinions déjantées, bons mots, observations astucieuses, reformulation de ce qui est familier dans un nouveau contexte – ne sont pas générées par l’IA », a déclaré Forbes.