ChatGPT est le chatbot IA révolutionnaire d’OpenAI qui surprend Internet. Contre toutes les tendances technologiques établies, il n’a pas fallu longtemps pour que ChatGPT trouve sa place dans presque tous les domaines de notre vie numérique.
Très peu d’innovations technologiques ont suscité autant d’intérêt que ChatGPT en si peu de temps. Il semble ne jamais manquer d’astuces sympas – chaque jour, nous apprenons de nouvelles choses passionnantes que nous ne savions pas qu’il pouvait faire.
Mais comment ChatGPT est-il capable de faire ce qu’il peut faire ? Comment fonctionne ChatGPT ? Voici cela plus en détail dans cet article.
Avant d’aller plus loin, vous pouvez commencer par lire (ou regarder la vidéo) « Qu’est-ce que ChatGPT et comment l’utiliser ? »
Comment ChatGPT a-t-il été créé ?
Pour comprendre comment fonctionne ChatGPT, il vaut la peine de regarder ses origines et le cerveau derrière le chatbot AI de pointe. Tout d’abord, aussi magique que ChatGPT puisse paraître, il a été construit par le génie humain, comme toutes les technologies logicielles valables.
OpenAI, est la société révolutionnaire de recherche et développement sur l’IA qui a créé ChatGPT. La société à également créé d’autres outils d’IA puissants comme DALL-E, InstructGPT et Codex.
Alors que ChatGPT est devenu viral vers la fin de 2022, la plupart des technologies sous-jacentes qui alimentent ChatGPT existent depuis bien plus longtemps, mais avec beaucoup moins de publicité.
Le modèle ChatGPT est construit sur GPT-3 (ou, plus précisément, GPT-3.5). GPT signifie « Generative Pre-trained Transformer 3 ». GPT-3 est la troisième itération de la gamme GPT de modèles d’IA et a été précédée par GPT-2 et GPT. Les itérations antérieures des modèles GPT sont tout aussi utiles, mais GPT-3 et l’itération finement réglée GPT-3.5 sont beaucoup plus puissantes. La plupart de ce que ChatGPT peut faire est dû à la technologie GPT-3 sous-jacente.
Qu’est-ce que GPT ?
ChatGPT est construit sur la troisième génération du modèle GPT. Mais qu’est-ce que GPT ? Voyons chacun des acronymes en détail ci-dessous :
- « G : génératif » : représente sa capacité à générer du texte en langage humain naturel.
- « P : Pre-trained » (pré-formé) : représente le fait que le modèle a déjà été formé sur un ensemble de données fini. Un peu comme si nous lisions plusieurs livres avant d’être invités à répondre à des questions sur un sujet précis.
- « T : Transformer » : représente l’architecture d’apprentissage automatique sous-jacente qui alimente GPT.
Maintenant, en mettant tout cela ensemble, Generative Pre-trained Transformer (GPT) est un modèle de langage qui a été formé à l’aide de données provenant d’Internet dans le but de générer un texte en langage humain lorsqu’il est présenté avec une invite.
Comment ChatGPT a-t-il été formé ?
ChatGPT lui-même n’a pas été formé à partir de zéro. Au lieu de cela, il s’agit d’une version affinée de GPT-3.5, qui est elle-même une version affinée de GPT-3. Le modèle GPT-3 a été formé avec une quantité massive de données collectées sur Internet. Pensez à Wikipédia, Twitter et Reddit – il a été alimenté par des données et du texte humain extraits de tous les coins d’Internet.
GPT-3 a été formé en utilisant une combinaison d’apprentissage supervisé et d’apprentissage par renforcement par rétroaction humaine (RLHF). L’apprentissage supervisé est l’étape où le modèle est formé sur un grand ensemble de données de texte extrait d’Internet. L’étape d’apprentissage par renforcement est celle où il est formé pour produire de meilleures réponses qui correspondent à ce que les humains accepteraient comme étant à la fois humain et correct.
Formation avec apprentissage supervisé
Pour mieux comprendre comment l’apprentissage supervisé et par renforcement s’applique à ChatGPT, imaginez un scénario dans lequel un enseignant apprend à un élève à rédiger une dissertation.
L’apprentissage supervisé reviendrait à ce que l’enseignant donne à l’élève des centaines d’essais à lire. Le but ici est que l’étudiant apprenne comment un essai doit être écrit en s’habituant au ton, au vocabulaire et à la structure de centaines d’essais.
Cependant, il y aura du bon et du mauvais parmi ces centaines d’essais. Étant donné que l’étudiant a été formé à la fois sur les bonnes et les mauvaises copies, il peut parfois arriver que l’étudiant rédige une mauvaise dissertation parce qu’il a également reçu de mauvaises dissertations à un moment donné.
Cela signifie que lorsqu’on lui demande de rédiger une dissertation, l’élève peut rédiger une copie qui n’est pas acceptable ou assez bonne pour l’enseignant. C’est là qu’intervient l’apprentissage par renforcement.
Formation avec apprentissage par renforcement
Une fois que l’enseignant a établi que l’élève comprend les règles générales de la rédaction d’essais en lisant des centaines d’essais, l’enseignant donne alors à l’élève des devoirs fréquents d’écriture d’essais.
Par la suite, l’enseignant fournirait des commentaires sur les devoirs de rédaction de dissertation, en disant aux élèves ce qu’ils ont bien fait et ce qu’ils pourraient améliorer.
L’étudiant utilise ensuite les commentaires pour guider les devoirs d’écriture de dissertation ultérieurs, ce qui va l’aider à s’améliorer au fil du temps. Ceci est similaire à l’étape d’apprentissage par renforcement de la formation du modèle GPT.
Après avoir reçu une énorme quantité de texte récupéré sur Internet, le modèle peut répondre aux questions. Cependant, sa précision ne sera pas suffisante. Les formateurs humains posent une question au modèle et fournissent des commentaires sur la réponse la plus appropriée pour chaque question.
Le modèle utilise la rétroaction pour améliorer sa capacité à répondre aux questions avec plus de précision et plus comme la façon dont un humain répondrait. C’est ainsi que ChatGPT peut générer des réponses à consonance humaine qui sont à la fois cohérentes, engageantes et généralement précises.
Comment ChatGPT est-il capable de répondre aux questions ?
Prenez un autre exemple plus concret avec ChatGPT pour comprendre son fonctionnement. Nous nous connecter à la plateforme et nous posons la question suivante à ChatGPT :
« Écris-moi une chanson folk sur le style de Bob Dylan (en anglais) ».
Il répond avec des paroles à une chanson de folk qui ressemble étonnamment à ce que Bob Dylan aurait pu écrire (voir ci-dessous le résultat).
Comment est-ce possible? La « magie » derrière ChatGPT est parfaitement liée à sa formation.
Après avoir parcouru chaque centimètre d’un manuel d’histoire, il y a de fortes chances pour que puissions répondre à toutes les questions qui nous seraient posées.
Pourquoi? Parce que nous l’avons lu et que nous l’avons appris.
C’est la même chose avec ChatGPT : il apprend.
Comme l’a montré la civilisation humaine, avec une formation suffisante, il est possible de résoudre presque tous les problèmes. Bien que nous puissions probablement gérer des centaines de livres au cours de notre vie, ChatGPT ou GPT a déjà consommé une grande partie d’Internet.
C’est une énorme mine d’informations. Là-dedans, quelque part, se trouvent notamment les paroles des nombreuses chansons de Bob Dylan.
Donc, bien sûr, ChatGPT doit l’avoir consommé (car est pré-formé) et a reconnu des modèles dans les paroles de Bob Dylan. Il utiliserait alors une « connaissance » de ce modèle pour « prédire » les paroles d’une chanson semblable à ce que l’artiste écrirait.
L’accent est mis ici sur « prévoir ». Il est important ici de préciser que ChatGPT ne répond pas aux questions de la même manière que nous le faisons en tant qu’humains.
Par exemple, face à une question comme « Quelle est la capitale du Grèce ? » nous pourrions dire « Lisbonne »Athènes » et le dire pour un « fait ». Cependant, ChatGPT ne répond pas aux questions avec une certitude à 100 %. Au lieu de cela, il essaie de prédire la bonne réponse compte tenu des données qu’il a consommées dans son ensemble de données d’apprentissage.
L’approche de ChatGPT pour répondre aux questions
Pour mieux comprendre le concept de prédiction des réponses, imaginez ChatGPT comme un détective chargé de résoudre un meurtre.
Le détective est présenté avec des preuves, mais ils ne savent pas qui a commis le meurtre et comment cela s’est passé. Cependant, avec suffisamment de preuves, le détective peut « prédire » avec une grande précision qui est responsable du meurtre et comment le crime a été commis.
Après avoir consommé des données sur Internet, ChatGPT supprime les données d’origine et stocke les connexions neuronales ou les modèles qu’il a appris à partir des données. Ces connexions ou modèles sont comme des éléments de preuve que ChatGPT analyse lorsqu’il tente de répondre à une invite.
Donc, en théorie, ChatGPT est comme un très bon détective. Il ne sait pas avec certitude quels devraient être les faits d’une réponse, mais il essaie, avec une précision impressionnante, de prédire une séquence logique de texte en langage humain qui répondrait le mieux à la question.
C’est ainsi que nous obtenons des réponses à nos questions. Et c’est aussi pourquoi certaines de ces réponses semblent très convaincantes, mais sont également parfois terriblement fausses…
Pour conclure…
Les détails techniques sous-jacents de ChatGPT sont complexes. Cependant, d’un point de vue rudimentaire, il fonctionne en apprenant et en reproduisant ce qu’il a appris lorsqu’il y est invité. Tout comme nous le faisons en tant qu’humains.
Au fur et à mesure que ChatGPT évolue grâce à la recherche, son fonctionnement peut changer. Cependant, ses principes de fonctionnement fondamentaux resteront les mêmes pendant un certain temps. Du moins jusqu’à l’arrivée d’une nouvelle technologie perturbatrice.
Vous devriez maintenant mieux comprendre comment fonctionne ce nouvel outil numérique qu’est ChatGPT. 🙂
Portez-vous bien et à bientôt!