Ces three letters apparaissent desormais presque tout dans les actualités liées à l’intelligence artificielle (IA). Auto GPT, ChatGPT, GPT-4. Mais que signifie GPT et, surtout, qu’est-ce qui se cache derrière l’acronyme ?

C’est un acronym que l’on voit désormais associated couramment à l’intelligence artificielle: “GPT”. Ces 3 letters se retrouvent dans le nom de ChatGPT, le fameux chatbot conçu par l’entreprise américaine OpenAI. Ou bien dans les models de langage qui servent à le faire functionner, comme GPT-3 et GPT-4. Other projects are also available, such as Auto-GPT.

Que signified GPT ?

GPT signifie en anglais Generative Pre-trained Transformer, soit transformeur génératif pré-entraîné. The task is to develop a model for the language developed by the American company OpenAI, which means that the “motor” of the conversational agent (or chatbot) ChatGPT. Plusieurs generations de GPT existent. Il y en a quatre en tout. Mais en disant cela, on ne saisit pas comment cela fonctionne.

The formulation Generative Pre-trained Transformer is paraître intimidante de prime abord. Il s’avère néanmoins que l’on peut apprivoiser pas à pas en regardant chaque terme qui compose cet acronyme. Ainsi, le mot génératif sert à renseigner que le système est en capacité de générer du content: you text or des images par example.

Vous le voyez déjà avec ChatGPT, si vous avez utilisé cet outil : il product des phrases coherentes en se basant sur le texte que vous lui avez envoyé. Leur justesse est certes discutée (on dit parfois que cette IA « hallucine » quand elle raconte n’importe quoi). Mais toujours est-il que sur un plan strictement grammatical, ChatGPT tient debout.

Le segment pré-entraîné est also très clair : cela suggest que l’outil a été entraîné au préalable sur de grands volumes de données, pour qu’il apprenne à agencer les mots logiquement. Cela donne lieu à des models statistices qui estiment l’agencement et la distribution des terms. Cela est possible grace aux immense quantities of information préalablement ingérées.

OpenAI absorbe the milliards de données textuelles pour muscler ses models de langage. // source : OpenAI

For example, le model GPT-2 d’OpenAI disposait d’un ensemble de données composed de 40 gigaoctets (Go) de texte. GPT-3 a été prepared sur 570 Go de données, venant du net, comme Reddit et Wikipédia. On ne sait pas, en revenge, the taille du corpus qui a permit à OpenAI de créer GPT-4. Il s’agit aujourd’hui de son modèle de langage le plus advance.

On the other hand, there is a tendency towards l’oublier, mais une masse de quelques centaines de Go pour du texte est considérable. A titre de comparaison, le poids de tout Wikipédia — la plus vaste encyclopédie jamais inventée — dépasse à peine la dizaine de Go. Le texte occupe en effet beaucoup moins de place sur une machine qu’une vidéo ou une image. Les corpus sont donc immensees.

La phase d’entrainement it is also a phase of regulation pour rendre l’activité d’une intelligence artificial conforme aux intentions de la society qui la conçoit. OpenAI a par example passed six months for adjusting the function de GPT-4. Durant cette period, the adjustments manuals peuvent avoir lieu, sous la supervision d’équipes spécialisées dans l’IA.

Le transformeur: a revolution in the work of the IA

La partie la plus technique est celle liée au transformeur. Ce terme designe une approche relativement inédite dans le champ de l’intelligence artificielle. Celle-ci a été presented in 2017 in a paper de research signed by the members of the équipes de recherche de Google — dont la division Google Brain, specialized in l’intelligence artificielle justement.

Les transformers are a type d’architecture de réseau neural qui ont le vent en poupe. Outre le texte, ils servent also à la generation d’image (comme DALL-E, Stable Diffusion, Midjourney) or aux réseaux de neurones classificateurs, via AlexNet. Ils decoulent de l’apprentissage profond (deep learning), a procedure courant dans l’apprentissage automatique.

C’est un papier, title L’attention est tout ce dont vous avez besoin, qui va thunder naissance aux architectures appelées Transformers. Voilà ce qu’explique le pole d’expertise de la regulation numérique (Peren) in a discussion on ChatGPT. Le Peren a pour rôle d’appuyer les services de l’État sur les questions liées aux new technologies.

Transformer Peren
Le principe, schematic, d’un transformeur. // Source : Peren

« Le mechanisme de l’attention permet de resoudre le problem des phrases
complexes. Le model s’entraîne à reconnaître l’importance des mots du contexte en fonction du mot considéré
», dit le Peren. Il sagit de « la dernière grande advancee du domaine », ajoute-t-il. OpenAI ne s’y est pas trompé en intégrant cette manière de procedure.

For expliquer le fonctionnement de cette attention, le Peren a pris l’exmple de la phrase suivante : « le chat a poursuivi le rat, puis il l’a mangé ». Quand le modelle va se porter sur le mot « il », your attention va se porter sur le mot « chat ». En clair, il saisit le sens du mot “il” et à quel sujet il renvoie dans la phrase. On retrospect the meme idée dans l’infoografie, with “cette parole”.

Google published in 2021 a video on YouTube to present the function of the transformer, which « ont completely transformed l’état de l’art en matière de traitement du langage naturel ». Dithyrambique, la firme de Moutain View l’affirme : « les transformers peuvent tout faire ». Google used a transformer for your BERT project for better research.

To an after le paper de Google sur le mecanisme de l’attention, OpenAI a partagé en 2018 un papier de recherche intitulé Améliorer la compréhension des langues grace à l’apprentissage non supervised. Dans celui-ci, OpenAI explicit combiner « deux idées existantes » : les transformateurs et le pré-entraînement non supervised.

« Ces résultats fournissent un exemple convaincant que l’association de methods d’apprentissage supervised et de pré-entraînement non supervised fonctionne très bien », écrivait à l’époque OpenAI. « Nous avons obtenu des résultats de pointe sur a series de tâches linguistiques diverses avec a système évolutif et agnostique », se félicitait à l’époque la société.

« Ces résultats fournissent un exemple convaincant que l’association de methods d’apprentissage supervised et de pré-entraînement non supervised fonctionne très bien », ajoutait-elle, en reconnaissant que cette idée avait été déjà exploree avant par d’autres. If you look at the retrospective appelé GPT-1, you can expect it from the premiere iteration of the model.

GPT-2 will arrive in 2019, GPT-3 in 2020 and GPT-4 in 2023.


Subscription vous à Numerama on Google News for a manquer aucune info !

California18

Welcome to California18, your number one source for Breaking News from the World. We’re dedicated to giving you the very best of News.

Leave a Reply