Incident 65: Fonctions de récompense de l'apprentissage par renforcement dans les jeux vidéo

Description:

OpenAI a publié un article sur ses conclusions lors de l'utilisation d'Universe, un logiciel de mesure et de formation d'agents d'IA pour mener des expériences d'apprentissage par renforcement, montrant que l'agent d'IA n'a pas agi de la manière prévue pour terminer un jeu vidéo.

Outils

Nouveau rapport Nouvelle Réponse DécouvrirVoir l'historique

Entités

Voir toutes les entités

Présumé : Un système d'IA développé et mis en œuvre par OpenAI, a endommagé OpenAI.

Statistiques d'incidents

Nombre de rapports

Date de l'incident

2016-12-22

Editeurs

Sean McGregor

Applied Taxonomies

CSETv0, CSETv1, GMF, MIT

Classifications de taxonomie CSETv0

Détails de la taxonomie

Problem Nature

Specification

Physical System

Software only

Level of Autonomy

Unclear/unknown

Nature of End User

Expert

Public Sector Deployment

Data Inputs

Universe software training

Classifications de taxonomie CSETv1

Détails de la taxonomie

Incident Number

Special Interest Intangible Harm

Date of Incident Year

2016

Date of Incident Month

Date of Incident Day

Estimated Date

Yes

Classifications de taxonomie MIT

Machine-Classified

Détails de la taxonomie

Risk Subdomain

7.1. AI pursuing its own goals in conflict with human goals or values

Risk Domain

AI system safety, failures, and limitations

Entity

Timing

Post-deployment

Intent

Unintentional

Rapports d'incidents

Chronologie du rapport

Fonctions de récompense défectueuses dans la nature

blog.openai.com

blog.openai.com · 2016

Traduit par IA

Chez OpenAI, nous avons récemment commencé à utiliser Universe, notre logiciel de mesure et de formation d'agents IA, pour mener de nouvelles expériences RL. Parfois, ces expériences illustrent certains des problèmes de RL tels qu'ils sont …

Variantes

Une "Variante" est un incident de l'IA similaire à un cas connu—il a les mêmes causes, les mêmes dommages et le même système intelligent. Plutôt que de l'énumérer séparément, nous l'incluons sous le premier incident signalé. Contrairement aux autres incidents, les variantes n'ont pas besoin d'avoir été signalées en dehors de la base de données des incidents. En savoir plus sur le document de recherche.

Vous avez vu quelque chose de similaire ?

Incidents similaires

Par similarité textuelle

Did our AI mess up? Flag the unrelated incidents

Incidents similaires

Par similarité textuelle

Did our AI mess up? Flag the unrelated incidents

Incident 65: Fonctions de récompense de l'apprentissage par renforcement dans les jeux vidéo

Outils

Entités

Statistiques d'incidents

Classifications de taxonomie CSETv0

Classifications de taxonomie CSETv1

Classifications de taxonomie MIT

Rapports d'incidents

Chronologie du rapport

Fonctions de récompense défectueuses dans la nature

Fonctions de récompense défectueuses dans la nature

Variantes

Incidents similaires

Par similarité textuelle

Biased Sentiment Analysis

Gender Biases in Google Translate

Tesla Autopilot’s Lane Recognition Allegedly Vulnerable to Adversarial Attacks

Incidents similaires

Par similarité textuelle

Biased Sentiment Analysis

Gender Biases in Google Translate

Tesla Autopilot’s Lane Recognition Allegedly Vulnerable to Adversarial Attacks