Les models d’OpenAI, and notamment GPT-4, which are entranés sur de nombreux livres, protégés en partie par le droit d’auteur. Une équipe de chercheurs de l’Université de Berkeley livre ses premières conclusions.

For the production of the results coherents et precise, the artificial intelligences are suitable for a phase d’apprentissage intense (deep learning). Au cours de cette étape, les ingénieurs en charge de l’IA supplier des resources textuelles diverses et complexes.

Ainsi, lorsqu’on interroge ChatGPT sur ses données d’entraînement, le chatbot assure avoir emmagasiné des articles de journaux, de nombreux sites web, des corpus de textes spécifiques (universitaire ou collaboratif notamment), des conversations réelles (apprentissage par renforcement) ou encore des livres.

Les modèles derrière ChatGPT sont entraînés sur divers corpus. // Source : Capture d’écran

Pour mieux comprendre le processus d’apprentissage et ses conséquences sur les réponses générées par l’IA, une équipe de chercheurs de l’Université de Californie à Berkeley (Kent Chang, Mackenzie Cramer, Sandeep Soni, et David Bamman) ont étudié la liste probable des livres connus par ChatGPT and GPT-4.

« Nous avons découvert que les modèles d’OpenAI ont memorisé une vaste collection de matériaux protégés par le droit d’auteur et que le degré de mémorisation est lié à la fréquence à laquelle des extraits de ces livres apparaissent sur le web », explicitly les universitaires au be d’un article scientific published on April 28th.

Des livres surreprésentés

Pour parvenir à cette conclusion, les scientifiques sont parvenus à identifier une list de 572 livres crawlés par les modèles d’OpenAI. Des titres ensuite classes par precision des connaissances sur l’oeuvre. Ainsi, les auteurs notent que les livres de Science-Fiction, de Fantasy et les best-sellers dominant le classement. Les livres tombés dans le domaine public (previous 1923) apparaissent également en bonne place, ce qui est plus logique.

Les chercheurs attribute cette domination of the popular genre to the recurrence of the text in the données d’apprentissage de l’IA. On retrospect ainsi des classiques, ancrés depuis de longues années dans la culture populaire :

  • Les Aventures d’Alice au pays des merveilles de Lewis Carroll
  • Harry Potter à l’école des sorciers de JK Rowling
  • La Lettre écarlate de Nathaniel Hawthorne
  • Les Aventures de Sherlock Holmes d’Arthur Conan Doyle
  • Emma de Jane Austen
  • Frankenstein ou le Prométhée Moderne de Mary Shelley
  • Orgueil et Prejugés de Jane Austen
  • Oliver Twist de Charles Dickens
  • Bartleby le scribe d’Herman Melville
  • Les Aventures de Huckleberry Finn de Mark Twain

Où s’arrête le droit d’auteur ?

Des surrepresentées oeuvres in the « memoire » the models d’OpenAI peuvent-elles bias les analyzes and les réponses de ChatGPT ? Utilisées dans le cadre d’un travail de recherche précis, les réponses de l’IA peuvent fausser les résultats finaux.

L'étude de l'Université de Berkeley peut être consultée sur son site.  // Source : Cornell University
L’étude de l’Université de Berkeley peut être consultée sur son site. // source : Cornell University

Les chercheurs soulignent l’ambiguity actual relative qui existe sur le droit d’auteur. Bien que l’IA ne memorise pas entièrement les textes d’entraînement, cette dernière pourrait générer des passages similaires, voire identiques aux sources d’apprentissage.

Les questions de copyright soulevées par les chercheurs rappellent le cas de Stable Diffusion dont les modèles d’image se sont entraînés sur de nombreuses bases d’images propriétaires. En January 2023, Getty Images avait intenté an action judiciaire contre l’entreprise, l’accusant d’avoir «copié et analyzed illégalement des millions of photos protected by copyright

Pour alle plus loin

Source: The Creativity Machine

Les conclusions des chercheurs de Berkeley relancent le besoin d’une législation claire en la matière.


Subscription vous à Numerama on Google News for a manquer aucune info !

California18

Welcome to California18, your number one source for Breaking News from the World. We’re dedicated to giving you the very best of News.

Leave a Reply