DeepSeek-R1: El nuevo LLM que pulveriza a OpenAI o1

DeepSeek-R1: El nuevo LLM que pulveriza a OpenAI o1

Esta semana nos sorprendía la noticia de un nuevo LLM que venía de China y que parecía adelantar (a niveles bastante importantes) a ChatGPT o1.

La locura se desataba cuando se conocía que además de hacer las cosas “mejor”, era Open Source.

Qué es DeepSeek R1

Un modelo de lenguaje grande (LLM) entrenado para combinar velocidad, precisión y adaptabilidad a contextos técnicos.

 

Nace con el objetivo de optimizar tareas y hacerlo mejor que otros modelos: análisis de datos, generación de código limpio y respuestas sin “relleno”.

Benchmark LLMs

Se trata de un modelo open source (de código abierto) del que publicaron todo: el modelo, los datos de entrenamiento, los métodos de evaluación.

Mostrar los datos de aprendizaje es algo nuevo, porque la mayoría de los modelos únicamente publican los resultados.

Se utilizaron 671 mil millones de parámetros, pero sólo activa 37 para ejecutar tareas, lo que lo convierte en el modelo más eficiente.

¿Aún no os habéis quedado de piedra? Pues os diré que además, utilizaron aprendizaje por refuerzo (ensayo y error) y no supervisado (con datos etiquetados), como hacen la mayoría de los modelos de inteligencia artificial necesitan ver miles de ejemplos resueltos antes de funcionar bien.

Todo código abierto. Incluso tiene versiones más pequeñas (que cualquiera puede ejecutar en local), de 1,5B a 70B parámetros. Su versión de 32B ya supera a la o1-mini de OpenAI en múltiples benchmarks.

Las llamadas a la API cuestan 0,14 $ por millón de tokens de entrada, frente a los 7,5 $/m de OpenAI pero puedes ejecutarlo en local (con una GPU potente, lógicamente).

Imagen de Susana García

Susana García

Formación a empresas, conferenciante y redactora Inteligencia Artificial.
Autora libros “IA desde cero” y "Técnicas y Modelos de Machine Learning"
Profesora Ingeniería Industrial en la Universidad Nebrija y Negocios Digitales en la Univ. Europea.
Especializada en IA China
Economista de profesión y periodista de vocación.
Escribo sobre la industria de la IA en AI Insider y sobre IA China en la Revista Mundo Global.

Todas las entradas de Susana García