Incident 1135: Des prépublications provenant de chercheurs de plusieurs universités contiendraient des messages d'IA cachés
Description: Des instructions cachées auraient été découvertes dans au moins 17 prépublications universitaires sur arXiv. Ces instructions demanderaient aux outils d'IA de ne délivrer que des évaluations positives. Les auteurs principaux seraient affiliés à 14 institutions dans huit pays, dont l'Université Waseda, le KAIST, l'Université de Pékin et l'Université de Washington. Ces instructions, dont certaines auraient été intégrées en texte blanc ou en minuscules caractères, étaient censées influencer les évaluateurs utilisant des outils d'IA.
Entités
Voir toutes les entitésAlleged: Unnamed large language model developers developed an AI system deployed by Unnamed peer reviewers et Unnamed conference paper reviewers, which harmed Peer review process , Academic integrity , Academic conferences et Research community.
Système d'IA présumé impliqué: Unnamed large language models
Statistiques d'incidents
ID
1135
Nombre de rapports
1
Date de l'incident
2025-07-01
Editeurs
Daniel Atherton
Rapports d'incidents
Chronologie du rapport
TOKYO – Nikkei a découvert que des articles de recherche provenant de 14 institutions universitaires de huit pays, dont le Japon, la Corée du Sud et la Chine, contenaient des messages cachés demandant aux outils d'intelligence artificielle …
Variantes
Une "Variante" est un incident de l'IA similaire à un cas connu—il a les mêmes causes, les mêmes dommages et le même système intelligent. Plutôt que de l'énumérer séparément, nous l'incluons sous le premier incident signalé. Contrairement aux autres incidents, les variantes n'ont pas besoin d'avoir été signalées en dehors de la base de données des incidents. En savoir plus sur le document de recherche.
Vous avez vu quelque chose de similaire ?
Incidents similaires
Did our AI mess up? Flag the unrelated incidents
Incidents similaires
Did our AI mess up? Flag the unrelated incidents