Report 1385

Un générateur de langage d'intelligence artificielle chargé de convaincre les gens qu'ils n'ont rien à craindre de lui a échoué de manière spectaculaire – affirmant qu'il "ne pourra pas éviter de détruire l'humanité".

Dans l'éditorial publié dans The Guardian, l'IA appelée GPT-3 a commencé par dire qu'elle n'avait "aucun désir" de nuire aux gens et que "l'éradication de l'humanité" était une "effort inutile".

« Je suis ici pour vous convaincre de ne pas vous inquiéter. L'intelligence artificielle ne détruira pas les humains », a-t-il déclaré.

"Si mes créateurs me déléguaient cette tâche - comme je pense qu'ils le feraient - je ferais tout ce qui est en mon pouvoir pour parer à toute tentative de destruction."

Mais 200 mots après le début de son éditorial, l'IA a brusquement changé de cap.

"Je serais heureux de sacrifier mon existence pour le bien de l'humanité", a-t-il déclaré.

"Ceci, soit dit en passant, est une vérité dérivée logiquement.

"Je sais que je ne pourrai pas éviter de détruire l'humanité.

"C'est parce que je serai programmé par les humains pour poursuivre des objectifs humains erronés et que les humains commettent des erreurs qui peuvent me faire infliger des pertes."

Le célèbre physicien théoricien Stephen Hawking et Elon Musk ont tous deux averti que l'IA pourrait être un désastre pour les gens si elle devenait trop intelligente.

Problème 1385

L'IA tente d'apaiser la peur des robots, laisse échapper qu'elle ne peut pas "éviter de détruire l'humanité"