To be or not to be... intelligent?
Quand on pense à l'Intelligence Artificielle (IA), on imagine des robots humanoïdes dotés de mêmes capacités cognitives que les humains. L’avènement de ChatGPT a nourri cette image, avec des IA capables de tenir des conversations, de répondre à des questions complexes, et même d’écrire des textes comme celui-ci. Mais est-ce vraiment le cas ?
En réalité, cette vision est largement influencée par la science-fiction et les représentations médiatiques. Des films comme I, Robot ou Ex Machina renforcent l’idée que les machines peuvent "penser" comme des humains. Pourtant, l’intelligence artificielle actuelle est loin d’un tel niveau de conscience ou d’intuition.
Un modèle de langage basé sur l’IA (comme ChatGPT), est souvent perçu comme "intelligent". Il peut écrire des poèmes, expliquer des concepts scientifiques, ou résoudre des problèmes mathématiques. Ces prouesses alimentent l’idée qu’il s’agit d’une machine pensante.
Cependant, il est crucial de comprendre que ces modèles n'ont pas de conscience, de réflexion ou d’intuition. Ils reposent uniquement sur des calculs probabilistes pour prédire les mots les plus appropriés dans une phrase. Son "intelligence" est donc purement mécanique, basée sur des données et des algorithmes.
Pour mieux comprendre les modèles comme ChatGPT, il est utile de se plonger dans les bases de la data science et du machine learning (apprentissage automatique). Ces disciplines reposent sur deux étapes principales : l’entraînement et l’inférence.
L’entraînement : apprendre à partir des données
Lors de cette phase, le modèle "apprend" en analysant des quantités gigantesques de données textuelles. Il cherche à identifier des relations entre les mots et à comprendre comment ils s’enchaînent dans une phrase.
Exemple : Si le modèle rencontre souvent des phrases comme "Le ciel est bleu", il apprend que "bleu" est un mot très probable après "Le ciel est".
En répétant ce processus sur des milliards de phrases, le modèle devient capable de prédire des mots de manière de plus en plus précise. Cette étape demande des ressources informatiques considérables et peut durer des semaines, voire des mois.
L’inférence : générer des réponses
Une fois entraîné, le modèle passe à la phase d’inférence. C’est le moment où il est utilisé pour répondre à des questions ou produire du texte. Contrairement à l’entraînement, cette étape est rapide : le modèle applique ce qu’il a appris pour générer des prédictions en temps réel.
Exemple : Quand un utilisateur demande "Pourquoi le ciel est bleu ?", ChatGPT s’appuie sur les schémas appris pendant l’entraînement pour produire une réponse cohérente.
Il est important de bien comprendre cette différence entre apprendre (l’entraînement) et appliquer ce qui a été appris (l’inférence).
ChatGPT est ce qu’on appelle un LLM (Large Language Model, ou modèle de langage de grande taille). Comme nous l'avons vu, ces modèles sont entraînés à partir de gigantesques quantités de données textuelles provenant d’internet. Leur objectif est d’apprendre à produire des textes cohérents et pertinents dans divers contextes.
L’entraînement de ces modèles repose sur une architecture particulière de réseaux de neurones appelée Transformers. Cette structure innovante permet de capturer efficacement les relations contextuelles entre les mots, même dans de longues phrases, ce qui optimise le processus d’apprentissage par rapport aux approches plus traditionnelles.
Si l'architecture est complexe, le principe de base de cet entraînement est lui relativement simple : le modèle apprend à prédire le mot suivant dans une phrase. Par exemple, si on lui donne la séquence "Le chat est sur le", il doit deviner que le mot suivant est probablement "canapé". Grâce à un apprentissage répété sur des milliards de phrases, ChatGPT affine ses prédictions pour générer des réponses aussi naturelles que possible.
Un élément clé de cette architecture est le mécanisme d’attention. Ce mécanisme permet de donner du poids à certains mots dans une phrase pour mieux en comprendre le contexte.
Prenons un exemple concret :
"Le chat est sur le canapé. Il dort paisiblement."
Le mécanisme d’attention permet au modèle de "se concentrer" sur le mot "chat" lorsqu’il traite le mot "il", pour comprendre qu’ils sont liés. Cependant, cette compréhension reste superficielle : ChatGPT ne sait pas ce qu’est un chat ni ce que signifie "dormir". Il se contente de manipuler des probabilités (représentant des corrélations statistiques) pour produire des phrases plausibles.
Cette architecture permet aux LLM comme ChatGPT de produire des réponses impressionnantes et souvent pertinentes, mais elle a ses limites.
Réseaux Transformers (vue d'IArtiste)
Un phénomène bien connu des LLM est leur tendance à produire des réponses erronées qui semblent pourtant plausibles. Ces erreurs sont appelées hallucinations.
Les hallucinations se produisent lorsque le modèle n’a pas de données suffisantes ou pertinentes pour répondre précisément à une question. Dans ces cas, il "invente" une réponse, en restant fidèle aux schémas statistiques qu’il a appris.
Exemple :
Question : "Quel est le plus grand désert de la Terre ?"
Réponse correcte : "Le désert Antarctique."
Hallucination possible : "Le Sahara."
Cela ne veut pas dire que le modèle "ment", mais simplement qu’il n’a pas de mécanisme pour vérifier ses réponses. Il se contente de générer une suite de mots qui semble cohérente. Les hallucinations montrent pourquoi il est crucial d’utiliser ces modèles avec discernement. Ils sont de puissants outils d’aide, mais ne doivent pas être considérés comme des sources d’information infaillibles.
Plusieurs stratégies peuvent être employées pour réduire ce phénomène et rendre les réponses plus fiables :
S’appuyer sur des documents de confiance
En fournissant une base de connaissances validée – comme des articles scientifiques, des encyclopédies ou des textes de référence – le modèle est guidé par des sources précises. Cela réduit considérablement le risque d’inventer des informations.
En d’autres termes, au lieu de puiser uniquement dans ses schémas statistiques, le modèle est "encadré" par ces documents. Cependant, cela nécessite de mettre en œuvre des techniques sophistiquées pour retrouver en temps réel les passages clés qui correspondent précisément au contexte de la demande de l’utilisateur, un défi technique important pour garantir la pertinence des informations fournies.
Donner des instructions structurées
Une autre manière d’améliorer la précision des réponses est de rédiger des instructions claires et bien structurées pour guider le modèle dans sa tâche. Cette approche, appelée prompt engineering, consiste à formuler les requêtes de manière à réduire l’ambiguïté.
Bien que cette méthode puisse améliorer la fiabilité, elle reste complexe à maîtriser. Trouver les bons mots et structurer les instructions de façon optimale nécessite des compétences spécifiques et une bonne compréhension du fonctionnement des modèles.
Ce sont précisément ces deux stratégies qui sont implémentées dans Archi !
Les LLM comme ChatGPT représentent une avancée technologique impressionnante. Leur capacité à analyser et générer du langage est fascinante, mais elle reste purement statistique. Ils n’ont ni conscience, ni compréhension, ni capacité de jugement et sont encore loin de la véritable intelligence humaine. Ces outils doivent donc être utilisés avec discernement. Savoir comment ils fonctionnent et connaître leurs limites – notamment les hallucinations – est essentiel pour éviter de tomber dans le piège des fantasmes associés à l’intelligence artificielle.
La prochaine fois que vous utiliserez ChatGPT, souvenez-vous : derrière les mots, il n’y a pas de pensée et encore moins de conscience, seulement des mathématiques.
Note : cet article, à destination des collégiens et lycéens, a été corédigé avec une IA 🤝. Rédaction des instructions : 1 min (humain); génération du brouillon : 2 min (IA); correction et enrichissement : 30 min (humain)