En novembre 2022, OpenAI lance ChatGPT. En cinq jours, un million d’utilisateurs. En deux mois, cent millions. La presse grand public découvre l’IA comme si elle venait de naître. Elle avait 70 ans.

Comprendre cette généalogie est la seule façon de comprendre pourquoi un modèle IA a besoin d’énormes quantités de données pour « apprendre », pourquoi les performances actuelles sont le résultat d’un travail de fond massif, et pourquoi elles n’ont rien d’accidentel.

Avant l’IA : l’algorithme, le vrai pilier

Avant de parler de machine learning ou de deep learning, il faut mentionner ce sur quoi repose encore 90% de l’informatique : l’algorithme déterministe.

Un algorithme, c’est une suite finie d’instructions. Vous donnez un input, il suit les règles, il produit un output. Toujours le même, pour le même input. C’est prévisible, testable, explicable. Trier une liste, calculer un itinéraire, valider un IBAN : des algos.

L’IA n’a pas remplacé l’algorithme. Elle coexiste avec lui. Et dans beaucoup de cas (on y reviendra dans un article dédié), un algorithme simple fait le travail mieux, moins cher, et de façon plus explicable qu’un modèle IA. Mais continuons la généalogie.

1943-1980 : les premières briques, les premières déceptions

En 1943, McCulloch et Pitts publient le premier modèle mathématique d’un neurone artificiel. En 1950, Alan Turing pose la question fondatrice : “Can machines think ?” et propose le test qui porte son nom.

En 1956, John McCarthy invente le terme “intelligence artificielle” lors de la conférence de Dartmouth. L’optimisme est total. McCarthy prédit qu’une machine équivalente à l’intelligence humaine sera construite en une génération. Cela ne se produira pas.

Les années 1960-70 voient le premier “hiver de l’IA” : les promesses dépassent les capacités, les financements se tarissent. Puis un second hiver dans les années 1980-90. L’histoire de l’IA est celle d’une courbe de hype répétée, bien avant que Gartner l’ait formalisée.

1986-2012 : le machine learning sort du labo

La rupture vient avec la rétropropagation du gradient, formalisée par Rumelhart, Hinton et Williams en 1986. Le principe : ajuster les poids d’un réseau de neurones en mesurant l’erreur sur des exemples, couche par couche, vers l’arrière. C’est la technique d’entraînement qui est encore utilisée aujourd’hui dans tous les modèles modernes.

Mais le machine learning des années 1990-2000 reste limité par deux contraintes : les données et le calcul. Les datasets sont petits. Les ordinateurs sont trop lents pour entraîner des réseaux profonds.

Ce qui change à partir des années 2000 : Internet génère des données à une échelle jamais vue. Et les GPU, initialement conçus pour les jeux vidéo, s’avèrent parfaitement adaptés aux calculs matriciels du machine learning. Deux conditions pour le décollage.

2012 : le moment AlexNet

En septembre 2012, un réseau de neurones profond appelé AlexNet remporte le challenge ImageNet avec une marge spectaculaire. Il classe des images avec un taux d’erreur de 15,3%, contre 26,1% pour le deuxième. Pour la première fois, un réseau de neurones profond bat de loin toutes les autres approches sur une tâche réelle à grande échelle.

AlexNet utilise deux GPU NVIDIA GTX 580 avec 3 Go de mémoire pour entraîner un réseau de 60 millions de paramètres sur 1,2 million d’images. La durée d’entraînement : cinq à six jours.

AlexNet, Krizhevsky, Sutskever, Hinton (2012)

Ce moment est souvent cité comme le début du deep learning moderne. Il établit un principe clé : plus les données et le calcul augmentent, meilleures sont les performances. Ce principe va structurer tout ce qui suit, jusqu’aux LLM d’aujourd’hui.

2017 : Transformer, la pièce qui manquait

En 2017, des chercheurs de Google publient “Attention Is All You Need”. Ils proposent une nouvelle architecture : le Transformer. Au lieu de traiter le texte séquentiellement (mot par mot), il traite toute la séquence en parallèle, avec un mécanisme d’attention qui pondère la relation entre chaque token et tous les autres.

Deux avantages décisifs : il entraîne beaucoup plus vite sur GPU, et il capture mieux les dépendances longue distance dans le texte. C’est l’architecture de tous les grands modèles de langage actuels : GPT, Claude, Llama, Mistral.

Pourquoi un modèle a besoin d’une base pour apprendre

Voilà le point que le discours ambiant évacue systématiquement.

Un modèle n’apprend pas dans le vide. Il apprend sur des données. Beaucoup de données. Les grands modèles de langage actuels ont été entraînés sur des centaines de milliards de tokens : livres, articles, code, pages web. Cette phase d’entraînement représente des millions d’heures de GPU et des dizaines, parfois centaines de millions de dollars.

Le modèle encode dans ses paramètres les patterns statistiques de ces données. Il sait conjuguer parce qu’il a vu des millions d’exemples de conjugaison correcte. Il sait résumer parce qu’il a vu des millions de paires texte/résumé. Il sait coder parce que GitHub a contribué une fraction massive des données d’entraînement.

Ce que le discours ambiant appelle « intelligence » ou « capacité à apprendre » désigne la capacité à généraliser depuis ces données d’entraînement vers de nouvelles situations similaires. C’est utile, et c’est mesurable. Ça reste fondamentalement différent d’un apprentissage continu et adaptatif comme celui d’un humain.

2022 : pourquoi ChatGPT a changé la perception, pas la technologie

ChatGPT n’est pas une rupture technologique. GPT-3, le modèle sous-jacent, existait depuis 2020. Ce qui change en 2022, c’est l’interface : une conversation naturelle, accessible à tous, sans avoir à écrire du code ou de la documentation. Et une politique de lancement grand public.

L’effet est massif : pour la première fois, des centaines de millions de personnes interagissent directement avec un LLM. La perception bascule. L’IA n’est plus réservée aux data scientists et aux chercheurs. C’est dans la main de tout le monde.

Mais techniquement, ce que ChatGPT fait en novembre 2022, GPT-3 le faisait déjà en 2020, avec moins de finesse. La rupture est une rupture de distribution et d’interface, pas de paradigme technique.

Ce que ça change de le savoir

Comprendre la généalogie change trois choses concrètes :

  1. Les performances actuelles ont un coût. Ce n’est pas sorti d’un chapeau. Des milliards de paramètres, des milliards de tokens, des mois de calcul. Ce coût se répercute sur vos prix d’API et sur votre empreinte carbone.

  2. Les limites sont structurelles. Les hallucinations, la coupure temporelle, la dépendance aux données d’entraînement : ce ne sont pas des défauts de jeunesse. Ce sont des propriétés de l’architecture actuelle.

  3. Le prochain hype cycle existe. L’histoire de l’IA est cyclique. Les fondations actuelles sont solides, mais les promesses dépassent régulièrement les réalisations. Ce n’est pas une raison de ne pas investir. C’est une raison de ne pas acheter au sommet du hype.