Skip to Content
logologo
AI Incident Database
Open TwitterOpen RSS FeedOpen FacebookOpen LinkedInOpen GitHub
Open Menu
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer
Découvrir
Envoyer
  • Bienvenue sur AIID
  • Découvrir les incidents
  • Vue spatiale
  • Vue de tableau
  • Vue de liste
  • Entités
  • Taxonomies
  • Soumettre des rapports d'incident
  • Classement des reporters
  • Blog
  • Résumé de l’Actualité sur l’IA
  • Contrôle des risques
  • Incident au hasard
  • S'inscrire
Fermer

Problème 1767

Incidents associés

Incident 2405 Rapports
GitHub Copilot, Copyright Infringement and Open Source Licensing

Loading...
Copilote GitHub, violation des droits d'auteur et licences open source
thenewstack.io · 2021

Plus tôt cette semaine, GitHub a présenté GitHub Copilot, une nouvelle fonctionnalité qu'il appelle "votre Programmeur de paires d'IA », mais pourrait également être appelé à juste titre « IntelliSense sous stéroïdes ». Construit à l'aide d'OpenAI Codex, un nouveau système qui, selon la société, est "beaucoup plus capable que GPT-3 dans la génération de code", l'outil non seulement complète automatiquement les lignes de code, mais offrira des blocs entiers de code en réponse à la fois au code que vous tapez et langage naturel.

Ayant été "formé sur des milliards de lignes de code public", l'une des premières questions qui s'est posée concernant Copilot s'est concentrée sur les questions de droit d'auteur, pointant spécifiquement vers l'idée de la [licence GPL] virale(https://www. gnu.org/licenses/gpl-3.0.en.html), qui exige que toutes les œuvres dérivées portent la même licence.

le droit d'auteur ne couvre pas seulement le copier-coller ; il couvre les œuvres dérivées. github copilot a été formé sur le code open source et la somme totale de tout ce qu'il sait a été tirée de ce code. il n'y a pas d'interprétation possible de "dérivé" qui n'inclut pas cela

— eevee (@eevee) 30 juin 2021

Maintenant, bien qu'il y ait beaucoup de conversations sur Twitter et quelques fils Hacker News, la plupart d'entre elles, comme vous vous en doutez, relèvent de la Clause de non-responsabilité « Je ne suis pas avocat ». Il y en a un commentaire Hacker News, du PDG de GitHub Nat Friedman, cependant , qui offre un peu de réponse aux questions allant dans le même sens.

"En général", écrit Friedman, "(1) la formation des systèmes ML sur les données publiques est une utilisation équitable (2) la sortie appartient à l'opérateur, tout comme avec un compilateur." Il propose ensuite un lien vers la position d'OpenAI sur la formation des modèles d'apprentissage automatique, qui soutient que "la formation Les systèmes d'IA constituent une utilisation équitable » et en outre que « les considérations politiques sous-jacentes à la doctrine de l'utilisation équitable étayent la conclusion selon laquelle les systèmes d'IA de formation constituent une utilisation équitable ».

Eh bien, bien sûr, nous pensions que tu pourrais dire quelque chose comme ça, Nat.

Mais Friedman n'est pas le seul – quelques avocats et experts en droit de la propriété intellectuelle se sont penchés sur la question et, du moins dans leur analyse préliminaire, avaient tendance à être d'accord avec Friedman. Tout d'abord, Neil Brown examine l'idée [du point de vue du droit anglais](https://decoded.legal/blog/2021/06/github-copilot -réflexions-initiales-du-point-de-vue-de-la-loi-anglaise) et, bien qu'il ne soit pas si sûr de l'idée d'"utilisation équitable" si l'idée est prise en dehors des États-Unis, il pointe simplement vers [les conditions d'utilisation de GitHub] (https://docs.github.com/en/github/site-policy/github-terms-of-service) comme preuve suffisante que l'entreprise peut probablement faire ce qu'elle fait. Brown pointe vers passage D4, qui accorde à GitHub "le droit de stocker, archiver, analyser et afficher votre contenu, et faire des copies accessoires, si nécessaire pour fournir le service, y compris l'amélioration du service au fil du temps. »

"La licence est libellée en termes généraux, et je suis convaincu qu'il y a matière à argumentation, mais s'il s'avère que Github n'a pas besoin d'une licence pour ses activités, alors, en ce qui concerne le code hébergé sur Github, je soupçonne qu'il pourrait faire un cas raisonnable que l'octroi de licence obligatoire dans ses termes couvre cela contre le téléchargeur », écrit Brown. Dans l'ensemble, cependant, Brown dit qu'il a "plus de questions que de réponses".

J'ai vu le code source pour cela. Je me souviens de quelque chose du genre pic.twitter.com/vVRSlUSU2e

— Tomáš Rottenberg (@hacksparr0w) 29 juin 2021

Dans une prise plus définitive, Andres Guadamuz, maître de conférences en droit de la propriété intellectuelle à l'Université de Sussex et rédacteur en chef du Journal of World Intellectual Property, aborde la question de savoir si GitHub Copilot enfreint ou non le droit d'auteur, concluant que "ce n'est ni une violation du droit d'auteur ni une violation de licence, mais je suis heureux d'être convaincu du contraire."

Sur l'idée de violation du droit d'auteur, Guadamuz souligne d'abord un article de recherche d'Alber Ziegler publié par GitHub, qui examine les situations où Copilot reproduit des textes exacts et trouve ces exemples extrêmement rares. Dans l'article original, Ziegler note que "lorsqu'une suggestion contient des extraits copiés à partir de l'ensemble de formation, l'interface utilisateur doit simplement vous dire d'où elle est citée", comme solution contre les réclamations pour contrefaçon.

Sur l'idée de la licence GPL et des œuvres « dérivées », Guadamuz n'est pas d'accord une fois de plus, arguant que la question qui se pose se résume à la façon dont la GPL définit les œuvres modifiées, et que « la dérivation, la modification ou l'adaptation (selon votre juridiction) a une signification spécifique dans la loi et la licence.

"Vous n'avez besoin de vous conformer à la licence que si vous modifiez le travail, et cela n'est fait que si votre code est basé sur l'original dans la mesure où il nécessiterait une autorisation de droit d'auteur, sinon il ne nécessiterait pas de licence", écrit Guadamuz. . "Comme je l'ai expliqué, je trouve qu'il est extrêmement peu probable qu'un code similaire copié de cette manière atteigne le seuil de violation du droit d'auteur, il n'y a pas assez de code copié, et même s'il y en a, il semble être principalement un code très basique qui est commun à d'autres projets.

Bien que Copilot semble définitivement cracher du code verbatim de temps en temps, c'est la rareté de cet événement qui semble assurer à Guadamuz que l'outil est peu en danger d'être poursuivi avec succès. Dans un commentaire sur son article, il écrit que "tout cela sera finalement résolu par Codex an Copilot offrant un outil de similarité où les programmeurs peuvent vérifier s'il y a une récitation dans leur code", ce qui pourrait aider avec des scénarios comme celui-ci :

Je ne veux rien dire mais ce n'est pas la bonne licence Monsieur Copilote. pic.twitter.com/hs8JRVQ7xJ

— Armin Ronacher (@mitsuhiko) 2 juillet 2021

Et pendant que nous sommes ici, si la violation du droit d'auteur et les licences open source vous préoccupent moins, et que vous êtes plus intéressé par la fraîcheur et l'utilité d'un outil comme GitHub Copilot, assurez-vous de continuer et de lire Analyse de Copilot par Darryl Taft, qu'il appelle "Une saisie semi-automatique puissante et controversée pour les développeurs".

Lire la source

Recherche

  • Définition d'un « incident d'IA »
  • Définir une « réponse aux incidents d'IA »
  • Feuille de route de la base de données
  • Travaux connexes
  • Télécharger la base de données complète

Projet et communauté

  • À propos de
  • Contacter et suivre
  • Applications et résumés
  • Guide de l'éditeur

Incidents

  • Tous les incidents sous forme de liste
  • Incidents signalés
  • File d'attente de soumission
  • Affichage des classifications
  • Taxonomies

2024 - AI Incident Database

  • Conditions d'utilisation
  • Politique de confidentialité
  • Open twitterOpen githubOpen rssOpen facebookOpen linkedin
  • e1b50cd