En noviembre de 2022, OpenAI lanzó ChatGPT. En cinco días, un millón de usuarios. En dos meses, cien millones. La prensa generalista descubrió la IA como si acabara de nacer. Pero ya tenía 70 años.
Entender esta genealogía no es un ejercicio de historia para puristas. Es la única forma de entender por qué un modelo de IA necesita enormes cantidades de datos para «aprender», por qué no se trata de magia sino de un trabajo de fondo ingente, y por qué los resultados actuales no son en absoluto fruto de la casualidad.
Antes de la IA: el algoritmo, el verdadero pilar
Antes de hablar de aprendizaje automático o de aprendizaje profundo, hay que mencionar aquello en lo que todavía se basa el 90 % de la informática: el algoritmo determinista.
Un algoritmo es una secuencia finita de instrucciones. Se le da una entrada, sigue las reglas y genera una salida. Siempre la misma, para la misma entrada. Es predecible, comprobable y explicable. Ordenar una lista, calcular una ruta, validar un IBAN: todo son algoritmos.
La IA no ha sustituido al algoritmo. Coexiste con él. Y en muchos casos (volveremos sobre esto en un artículo específico), un algoritmo sencillo hace el trabajo mejor, es más barato y resulta más fácil de explicar que un modelo de IA. Pero sigamos con la genealogía.
1943-1980: los primeros pasos, las primeras decepciones
En 1943, McCulloch y Pitts publicaron el primer modelo matemático de una neurona artificial. En 1950, Alan Turing planteó la pregunta fundamental: «¿Pueden pensar las máquinas?», y propuso el test que lleva su nombre.
En 1956, John McCarthy acuñó el término «inteligencia artificial» durante la conferencia de Dartmouth. El optimismo era total. McCarthy predijo que en una generación se construiría una máquina equivalente a la inteligencia humana. Eso no llegaría a suceder.
En los años 60 y 70 se produjo el primer «invierno de la IA»: las promesas superaban las capacidades y la financiación se agotó. Luego vino un segundo invierno en los años 80 y 90. La historia de la IA es la de una curva de expectación que se repite, mucho antes de que Gartner la formalizara.
1986-2012: el aprendizaje automático sale del laboratorio
El gran avance se produjo con la retropropagación del gradiente, formalizada por Rumelhart, Hinton y Williams en 1986. El principio: ajustar los pesos de una red neuronal midiendo el error en los ejemplos, capa por capa, hacia atrás. Esta es la técnica de entrenamiento que todavía se utiliza hoy en día en todos los modelos modernos.
Sin embargo, el aprendizaje automático de los años 1990-2000 sigue estando limitado por dos factores: los datos y la potencia de cálculo. Los conjuntos de datos son pequeños. Los ordenadores son demasiado lentos para entrenar redes profundas.
Lo que cambia a partir de la década de 2000: Internet genera datos a una escala sin precedentes. Y las GPU, diseñadas inicialmente para los videojuegos, resultan ser perfectas para los cálculos matriciales del aprendizaje automático. Dos condiciones para el despegue.
2012: el momento de AlexNet
En septiembre de 2012, una red neuronal profunda llamada AlexNet ganó el desafío ImageNet por un margen espectacular. Clasificó las imágenes con una tasa de error del 15,3 %, frente al 26,1 % del segundo clasificado. Por primera vez, una red neuronal profunda superó con creces a todos los demás enfoques en una tarea real a gran escala.
AlexNet utiliza dos GPU NVIDIA GTX 580 con 3 GB de memoria para entrenar una red de 60 millones de parámetros con 1,2 millones de imágenes. La duración del entrenamiento: de cinco a seis días.
Este momento se suele citar como el inicio del aprendizaje profundo moderno. Establece un principio clave: cuanto más aumentan los datos y la potencia de cálculo, mejor es el rendimiento. Este principio marcará el rumbo de todo lo que vino después, hasta los modelos de lenguaje grande (LLM) actuales.
2017: Transformer, la pieza que faltaba
En 2017, unos investigadores de Google publicaron «Attention Is All You Need». En él proponían una nueva arquitectura: el Transformer. En lugar de procesar el texto de forma secuencial (palabra por palabra), procesa toda la secuencia en paralelo, con un mecanismo de atención que pondera la relación entre cada token y todos los demás.
Dos ventajas decisivas: se entrena mucho más rápido en la GPU y capta mejor las dependencias a larga distancia en el texto. Esta es la arquitectura de todos los grandes modelos de lenguaje actuales: GPT, Claude, Llama, Mistral.
¿Por qué un modelo necesita una base para aprender?
Este es precisamente el punto que el discurso dominante omite sistemáticamente.
Un modelo no aprende de la nada. Aprende a partir de datos. Muchos datos. Los grandes modelos de lenguaje actuales se han entrenado con cientos de miles de millones de tokens: libros, artículos, código, páginas web. Esta fase de entrenamiento supone millones de horas de GPU y decenas, a veces cientos de millones de dólares.
El modelo codifica en sus parámetros los patrones estadísticos de esos datos. Sabe conjugar porque ha visto millones de ejemplos de conjugación correcta. Sabe resumir porque ha visto millones de pares de texto y resumen. Sabe programar porque GitHub ha aportado una parte enorme de los datos de entrenamiento.
Lo que el discurso común denomina «inteligencia» o «capacidad de aprendizaje» es, en realidad, la capacidad de generalizar a partir de esos datos de entrenamiento hacia nuevas situaciones similares. Es útil. Pero es algo fundamentalmente diferente de un aprendizaje continuo y adaptativo como el de un ser humano.
2022: por qué ChatGPT ha cambiado la percepción, pero no la tecnología
ChatGPT no supone una revolución tecnológica. GPT-3, el modelo subyacente, existía desde 2020. Lo que cambia en 2022 es la interfaz: una conversación natural, accesible para todos, sin necesidad de escribir código ni documentación. Y una estrategia de lanzamiento dirigida al gran público.
El impacto es enorme: por primera vez, cientos de millones de personas interactúan directamente con un modelo de lenguaje grande (LLM). La percepción está cambiando. La IA ya no es cosa exclusiva de los científicos de datos y los investigadores. Ahora está al alcance de todo el mundo.
Pero, técnicamente, lo que hace ChatGPT en noviembre de 2022, GPT-3 ya lo hacía en 2020, aunque con menos precisión. El cambio radica en la distribución y la interfaz, no en un cambio de paradigma técnico.
¿Qué cambia al saberlo?
Entender la genealogía cambia tres cosas concretas:
-
El rendimiento actual tiene un coste. No es algo que se haya sacado de la manga. Miles de millones de parámetros, miles de millones de tokens, meses de cálculos. Este coste se refleja en los precios de tu API y en tu huella de carbono.
-
Las limitaciones son estructurales. Las alucinaciones, la ruptura temporal, la dependencia de los datos de entrenamiento: no se trata de fallos iniciales. Son características de la arquitectura actual.
-
El próximo ciclo de expectación ya está aquí. La historia de la IA es cíclica. Las bases actuales son sólidas, pero las promesas suelen superar a los logros. Eso no es motivo para no invertir. Es motivo para no comprar en el punto álgido de la expectación.