Habría que esperar hasta 2006 para que la euforia volviera a ser completa gracias al renacimiento de las redes neuronales profundas (Deep Learning), impulsadas por tres factores clave: más datos que nunca (Big Data), mayor potencia de cálculo (especialmente gracias al uso de GPUs) y el desarrollo de nuevos algoritmos y técnicas de entrenamiento que suponían un cambio importante.
A partir de ahí, se produjeron dos hechos decisivos que cambiarían para siempre el rumbo de la inteligencia artificial:
ALEXNET: El despegue del reconocimiento de imágenes
El reconocimiento de imágenes por redes profundas (AlexNet) en 2012, un modelo que ganó la competición ImageNet con una precisión muy superior a la de cualquier otro sistema anterior.
El modelo AlexNet fue desarrollado por Alex Krizhevsky, junto con Ilya Sutskever (que años después sería confundador de OpenAI junto con Elon Musk y Sam Altman) y Geoffrey Hinton (galardonado con el Premio Nobel de Física, junto con John Hopfield, por sus contribuciones fundamentales al desarrollo del aprendizaje automático mediante redes neuronales artificiales), en la Universidad de Toronto.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC) era una competición anual en el que los modelos debían clasificar imágenes en una base de datos con más de un millón de ejemplos y mil categorías posibles. El objetivo era predecir correctamente a qué categoría pertenece cada imagen. Una de las métricas clave era el error de clasificación top-5, que indicaba la frecuencia con la que la categoría correcta no se encontraba entre las cinco predicciones más probables del modelo.
AlexNet logró una mejora sin precedentes al reducir ese error top-5 al 15,3%, frente al 26,2% obtenido por el segundo clasificado. Esta diferencia marcó un punto de inflexión en el campo de la visión por ordenador y consolidó el aprendizaje profundo como una estrategia fundamental en tareas de reconocimiento de imágenes.
El resultado demostró que las redes neuronales profundas podían superar a los métodos tradicionales en tareas visuales complejas, siempre que se tuvieran suficientes datos y potencia de cómputo. Este éxito marcó el inicio del éxito del Deep Learning en muchísimas áreas.
Attention is all you need
El segundo gran hito fue la publicación en 2017 del artículo Attention is All You Need, que introdujo por primera vez la arquitectura transformer, basada en mecanismos de atención.
Esta innovación revolucionó el procesamiento del lenguaje natural al eliminar la necesidad de estructuras secuenciales como las RNN o LSTM, permitiendo entrenar modelos mucho más eficientes y potentes.
Gracias a los Transformers (que veramos en detalle más adelante) se desarrollaron modelos de gran escala como LLaMa, GPT o Mistral, que inauguraron la era de la IA generativa, capaz de comprender, generar y traducir texto con una fluidez sin precedentes.
Ya no hablamos solo de sistemas expertos o redes simples, sino de modelos de lenguaje de escala masiva, capaces de analizar, redactar, conversar, traducir y crear contenido complejo de forma sorprendentemente coherente.
La inteligencia artificial dejó de ser una promesa para convertirse en una tecnología omnipresente en nuestra vida diaria.
Desde entonces, y hasta nuestros días, la IA ha evolucionado hacia sistemas multimodales capaces de integrar texto, imágenes y otros datos, impulsados por modelos como GPT-4o.
La disponibilidad de datasets masivos, el aumento en la potencia de cálculo (GPUs, TPUs) y técnicas como el aprendizaje por refuerzo con retroalimentación humana (RLHF) han permitido que la IA logre hacer tareas que hace solo unos años nos parecían ciencia ficción.
El objetivo de esta sección era poner en contexto temporal todos los avances y comprender cómo hemos llegado hasta aquí. Insisto en que comprender cómo transcurren los avances no tiene una importancia meramente histórica sino poder comprender muchas de las innovaciones que vemos hoy en día.
De todas formas, la gran mayoría los iremos viendo y desgranando a lo largo de los próximos capítulos.


