カナダ児童保護センター(C3P)によると、ヌード検出AIツールの開発に使用された大規模な画像データセットには、児童性的虐待資料(CSAM)の画像が多数含まれているという。
インターネットから収集された70万枚以上の画像を含むNudeNetデータセットは、画像内のヌードを自動検出できるAI画像分類器の学習に使用された。 C3Pは、2019年6月に研究データ共有プラットフォームであるAcademic TorrentsからNudeNetデータセットがダウンロード可能になって以来、250件以上の学術論文が同データセットを引用または使用していることを発見しました。
「これらの学術プロジェクト50件を網羅的ではない形で調査した結果、13件がNudeNetデータセットを利用し、29件がNudeNet分類器またはモデルに依存していることが判明しました」とC3Pは発表の中で述べています。
C3Pは、データセット内に、特定済みまたは既知のCSAM被害者の画像120枚以上を発見しました。その中には、思春期前であることが確認されている、または思春期前と思われる子供の性器または肛門領域に焦点を当てた画像が70枚近く含まれていました。 「場合によっては、フェラチオや陰茎膣挿入など、児童や10代の若者が関与する性的行為や虐待行為を描写した画像も含まれている」とC3Pは述べている。
データセットをダウンロードした個人や組織は、CSAMが含まれているかどうかは、自分で探さない限り知る由もなく、おそらく探したことはないだろう。しかし、これらの画像を自分のマシンに保存することは、技術的には犯罪となる。
「CSAMは違法であり、ホスティングや配布は作成者や研究者に多大な責任を負わせることになる。さらに、これらの画像の被害者は、これらの画像の配布や訓練での使用に同意していない可能性が高いという、より大きな倫理的問題もある」と、カリフォルニア大学バークレー校の教授で、デジタル加工画像の世界的権威であるハニー・ファリド氏はメールで述べた。ファリド氏は、広く使用されている画像識別・コンテンツフィルタリングツールであるPhotoDNAの開発者でもある。「たとえ目的が崇高なものであっても、今回のケースでは手段を正当化するものではない」
「アプリケーションや研究活動の機能をサポートするために使用されているAIモデルの多くは、無差別に、あるいは倫理的に問題のある方法で収集されたデータでトレーニングされています。こうしたデューデリジェンスの欠如が、こうした種類のデータセットに児童性的虐待や搾取に関する既知の資料が紛れ込んでしまう原因となっています。これは大部分が予防可能なことです」と、C3Pの技術ディレクターであるロイド・リチャードソン氏は述べています。
Academic Torrentsは、C3Pが管理者に削除通知を出した後、このデータセットを削除しました。
「児童の性的搾取を報告するためのカナダの全国的な通報窓口を運営する中で、私たちは一般の人々から毎日情報や通報を受けています」とリチャードソン氏はメールで述べています。「NudeNet画像データセットの場合、データセットにCSAMが含まれている可能性について、ある個人から懸念の声が上がり、私たちはより詳しく調査することになりました。」
C3Pの調査結果は、スタンフォード大学サイバーポリシーセンターによる2023年の研究結果と類似しています。この研究では、AI生成画像に使用されている最大級のデータセットの一つであるLAION-5BにCSAMも含まれているという結果が出ています。LAION-5Bを管理する組織は、この報告を受けてインターネットからデータを削除し、問題の画像を削除した後にのみ再び共有しました。
「これらの画像データセットは通常、審査を受けておらず、何百人もの研究者、企業、愛好家が利用できるようにオンラインで宣伝・配布されており、時には商業目的で利用されることもあります」とリチャードソン氏は語りました。現時点では、自社製品がもたらす可能性のある危害や搾取について検討している人はほとんどいません。また、こ れらの画像の多くが児童性的虐待犯罪の証拠であることも忘れてはなりません。イノベーションを急ぐあまり、私たちは多くの付随的被害を目にしていますが、多くの人はそれを認識していません。結局のところ、私たちにはAI技術を責任ある倫理的な方法で開発する義務があると思います。
更新:この記事はロイド・リチャードソン氏のコメントを反映して更新されました。