Journal des citations pour l'incident 729

Description: OpenAI's GPT-4o was found to have its Chinese token training data compromised by spam and pornographic phrases due to inadequate data cleaning. Tianle Cai, a Ph.D. student at Princeton University, identified that most of the longest Chinese tokens were irrelevant and inappropriate, primarily originating from spam and pornography websites. The polluted tokens could lead to hallucinations, poor performance, and potential misuse, undermining the chatbot's reliability and safety measures.

Outils

Nouveau rapportNouveau rapportNouvelle RéponseNouvelle RéponseDécouvrirDécouvrirVoir l'historiqueVoir l'historique
Présumé : un système d'IA développé par OpenAI et mis en œuvre par OpenAI and GPT-4o, endommagé OpenAI , Chinese-speaking users of ChatGPT , Researchers and OpenAI users.

Statistiques d'incidents

ID
729
Nombre de rapports
1
Date de l'incident
2024-05-14
Editeurs
Daniel Atherton
Applied Taxonomies

Rapports d'incidents

translated-fr-GPT-4o’s Chinese token-training data is polluted by spam and porn websites
technologyreview.com · 2024

translated-fr-Soon after OpenAI released GPT-4o on Monday, May 13, some Chinese speakers started to notice that something seemed off about this newest version of the chatbot: the tokens it uses to parse text were full of spam and porn phras…

Variantes

Une "Variante" est un incident qui partage les mêmes facteurs de causalité, produit des dommages similaires et implique les mêmes systèmes intelligents qu'un incident d'IA connu. Plutôt que d'indexer les variantes comme des incidents entièrement distincts, nous listons les variations d'incidents sous le premier incident similaire soumis à la base de données. Contrairement aux autres types de soumission à la base de données des incidents, les variantes ne sont pas tenues d'avoir des rapports en preuve externes à la base de données des incidents. En savoir plus sur le document de recherche.

Incidents similaires

Par similarité textuelle

Did our AI mess up? Flag the unrelated incidents