Esta semana nos sorprendía la noticia de un nuevo LLM que venía de China y que parecía adelantar (a niveles bastante importantes) a ChatGPT o1.
La locura se desataba cuando se conocía que además de hacer las cosas “mejor”, era Open Source.
Qué es DeepSeek R1
Un modelo de lenguaje grande (LLM) entrenado para combinar velocidad, precisión y adaptabilidad a contextos técnicos.
Nace con el objetivo de optimizar tareas y hacerlo mejor que otros modelos: análisis de datos, generación de código limpio y respuestas sin “relleno”.
Benchmark LLMs

Se trata de un modelo open source (de código abierto) del que publicaron todo: el modelo, los datos de entrenamiento, los métodos de evaluación.
Mostrar los datos de aprendizaje es algo nuevo, porque la mayoría de los modelos únicamente publican los resultados.
Se utilizaron 671 mil millones de parámetros, pero sólo activa 37 para ejecutar tareas, lo que lo convierte en el modelo más eficiente.
¿Aún no os habéis quedado de piedra? Pues os diré que además, utilizaron aprendizaje por refuerzo (ensayo y error) y no supervisado (con datos etiquetados), como hacen la mayoría de los modelos de inteligencia artificial necesitan ver miles de ejemplos resueltos antes de funcionar bien.
Todo código abierto. Incluso tiene versiones más pequeñas (que cualquiera puede ejecutar en local), de 1,5B a 70B parámetros. Su versión de 32B ya supera a la o1-mini de OpenAI en múltiples benchmarks.
Las llamadas a la API cuestan 0,14 $ por millón de tokens de entrada, frente a los 7,5 $/m de OpenAI pero puedes ejecutarlo en local (con una GPU potente, lógicamente).