Report 3564

Il y a eu des problèmes importants avec les données de formation d'AI, avec diverses plaintes déjà déposées par ceux qui prétendaient que leur travail avait été volé, mais la découverte la plus récente a vu des images d'abus sexuels sur des enfants dans leur ensemble de données. Dans une étude récente, le vaste ensemble de données ouvertes connu sous le nom de LAION-5B contenait ces matériaux illégaux et sensibles, surtout connus pour être utilisés par une célèbre plateforme d'IA.

Des différends massifs contre l’IA ont été présents depuis ses débuts, depuis l’accès sans licence et non autorisé aux données en ligne jusqu’aux informations sensibles qu’elle utilise.

Les données de formation sur l’IA contiennent des images d’abus sexuels sur des enfants

Un nouveau rapport de l'Observatoire Internet de Stanford (SIO) et de son chercheur David Thiel a découvert un cas alarmant de Données de formation sur l'IA contenant plus de 1 000 matériels d'abus sexuels sur enfants (CSAM). Cette dernière découverte corrobore la rumeur de 2022, selon laquelle le LAION-5B comporterait également des images illégales dans son ensemble de données mis à la disposition du plus grand nombre.

Les rumeurs d'avant ([via Bloomberg](https://www.bloomberg.com/news/articles/2023-12-20/large-ai-dataset-has-over-1-000-child-abuse-images- chercheurs-find)) centré sur les craintes concernant le large accès à l’IA, désormais confirmées par les récentes conclusions de l’étude.

Thiel considérait via Ars Technica que la disponibilité de ces images d’abus sexuels sur des enfants sur des modèles d’IA pourrait permettre de créer « un nouveau contenu potentiellement réaliste sur les abus sexuels sur enfants ».

L'ensemble de données LAION-5B est utilisé par une plate-forme d'IA connue

Cela étant dit, LAION-5B est un ensemble de données ouvert renommé qui est surtout connu pour être l'outil utilisé par Stable Diffusion 1.5, l'enquête affirmant que ces modèles ont été formés directement sur CSAM.

L'ensemble de données de LAION-5B contient des milliards d'images provenant de sites Web de médias sociaux renommés, notamment Reddit, WordPress, X et Blogspot. Il contenait également du matériel provenant de sites de vidéos pour adultes connus.

Il a été considéré que LAION supprimait les ensembles de données d'Internet dans le cadre de sa « politique de tolérance zéro », mais qu'ils seraient republiés après vérification.

Données de formation d'AI et accès aux informations en ligne

Pendant longtemps, l'un des principaux problèmes contre l'intelligence artificielle a été la sécurité, car elle exploite les données massives du monde, en particulier Internet, pour pouvoir créer ce qu'elle offre à tous. Après d'importants différends, différentes entreprises ont pris sur elles de sécuriser les modèles d'IA, OpenAI annonçant également son nouveau "[Cadre de préparation](https://www.techtimes.com/articles/299845/20231218/openai-introduces-preparedness -framework-make-ai-models-safe.htm)" pour cela.

Même si certains veulent utiliser l'IA à bon escient, elle présente un mauvais côté lorsque les acteurs malveillants [l'utilisent pour des attaques malveillantes](https://www.techtimes.com/articles/299422/20231205/ai-systems-more-prone -attaques-malveillantes-précédemment-croyées-study-shows.htm), avec la technologie sujette à ces entreprises.

Différents pays ont mené des enquêtes massives sur l'IA, notamment en ce qui concerne son [accès aux données personnelles qu'elle obtient en ligne](https://www.techtimes.com/articles/298984/20231122/italy-launches-probe-ai-training -practices-over-personal-data-gathering.htm), et la question des licences est toujours présente.

Les données et les informations sont massives sur Internet, mais il existe également un mauvais côté du Web, celui des contenus abusifs et illégaux, y compris les plus bas que l'on puisse imaginer. Cela étant dit, la récente découverte de matériels d'abus sexuels sur des enfants dans l'ensemble de données LAION-5B est un cas alarmant, d'autant plus que Stable Diffusion 1.5 est connu pour son utilisation.

Problème 3564

Incidents associés

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators

Les données de formation sur l'IA contiennent des images d'abus sexuels sur des enfants, la découverte pointe vers LAION-5B

L'ensemble de données LAION-5B est utilisé par une plate-forme d'IA connue

Données de formation d'AI et accès aux informations en ligne

Problème 3564

Incidents associés

Incident 62418 RapportsChild Sexual Abuse Material Taints Image Generators

Les données de formation sur l'IA contiennent des images d'abus sexuels sur des enfants, la découverte pointe vers LAION-5B

L'ensemble de données LAION-5B est utilisé par une plate-forme d'IA connue

Données de formation d'AI et accès aux informations en ligne

Incident 62418 Rapports
Child Sexual Abuse Material Taints Image Generators