China vuelve a hacerlo: Baidu lanza dos nuevos modelos, ERNIE 4.5 y X1, que parecen superar a GPT 4.5 y al mismo DeepSeek.
Esta mañana mientras preparaba una presentación en la que mencionaba, entre otros, a ERNIE (un modelo chino creado en 2019) me enteraba de que sus creadores lanzaban dos modelos y parece que tengo que modificar bastante la presentación porque se trata de algo serio 😉
Su nombre ya nos da alguna pista: ERNIE (Enhanced Representation through kNowledge Integration): a diferencia de los modelos alimentados con grandes cantidades de datos scrapeados de internet, ERNIE prefiere incorporar conocimiento exacto, verificado y estructurado.
Con ello consigue no solo reducir las alucinaciones sino necesitar menos datos y mejorar la comprensión contextual, especialmente con caracteres chinos.
Qué tienen de especial:
ERNIE 4.5:
Es un modelo multimodal capaz de procesar texto, imágenes, audio y video de forma conjunta desde su diseño base y algunos benchmark lo sitúan por encima de GPT 4.5, lanzado hace unos días.
ERNIE X1:
Es el modelo razonador (que compite con DeepSeek R1 y con o1 de openAI) especialmente bueno en tareas como matemáticas o código y también incorpora búsqueda avanzada.
ERNIE 4.5 y X1 están disponibles a través de https://yiyan.baidu.com/ y como como código abierto el 30 de junio de 2025.

Qué tienen de especial en cuanto a su entrenamiento:
✴️ “FlashMask” Dynamic Attention Masking:
Optimiza la atención en datos relevantes, mejorando la eficiencia del modelo en entradas complejas.
En los transformers la atención se aplica e manera uniforme o estática a toda la entrada (computacionalmente es más costoso). “FlashMask” enmascara (o ignora) partes menos relevantes y se centra solo en lo importante, sea imagen o texto.
✴️Heterogeneous Multimodal Mixture-of-Experts:
Como un MoE pero que, además, divide a los “expertos” en diferentes tipos de datos (texto, imagen, etc.) y luego los combina para procesarlos mejor. El hecho de que cada experto lo sea en ese tipo de datos lo enriquece y lo hace más exacto.
✴️Spatiotemporal Representation Compression:
Comprime datos con dimensiones espaciales (como una imagen) y temporales (como video y audio). Además identifica patrones redundantes como por ejemplo (explicado de forma super simplificada) si hay una persona hablando en el vídeo y el fondo no varía, el modelo optimiza los recursos centrándose en la persona y no “gasta” recursos en volver a cargar el fondo.
✴️Knowledge-Centric Training Data:
Como decíamos antes, se entrena con datos correctos y fiables (académica, bases de datos…) para reducir alucinaciones y errores.
✴️Self-feedback Enhanced Post-Training:
Es como una autoevaluación y autocoreección para mejorar precisión y coherencia.
Respecto a hardware creo que aún no hay mucha información pero parece que hanutilizado GPUs de Nvidia (A100 o H100) y los chips de la propia Baidu, Kunlun.