HUMANOID & AUTONOMOUS ROBOTSNEWSROBOTS & DEVICESSin categoría
Figure AI, una startup de robótica con sede en Sunnyvale, California, ha introducido un avance significativo en el campo de los robots humanoides con su nuevo sistema de inteligencia artificial, Helix.

Este modelo, anunciado esta semana, marca un hito al permitir que los robots interpreten comandos de lenguaje natural y manipulen objetos desconocidos sin necesidad de entrenamiento específico, rompiendo la dependencia de programación extensa o demostraciones previas para cada tarea.
Por culpa de este desarrollo Figure AI ha finalizado su colaboración con OpenAI, uno de sus inversores.
Cómo “piensa” Helix
Helix opera con una arquitectura dual inspirada en la cognición humana, dividida en dos sistemas complementarios:
- Sistema 2 (S2): Es un modelo de lenguaje y visión (VLM) preentrenado en internet, con 7 billones de parámetros, que funciona a una frecuencia de 7 a 9 Hz. Se encarga de la comprensión de alto nivel, incluyendo la interpretación de escenas y comandos de lenguaje natural, lo que permite una generalización amplia frente a diferentes objetos y contextos.
- Sistema 1 (S1): Una mecánica visuomotora rápida con 80 millones de parámetros, basada en transformadores, que opera a 200 Hz. Traduce las representaciones semánticas generadas por S2 en acciones precisas y continuas del robot, asegurando respuestas en tiempo real.
Esta separación permite que S2 “piense lento” para planificar objetivos de alto nivel, mientras S1 “piensa rápido” para ejecutar y ajustar movimientos, reflejando cómo los humanos combinan pensamiento deliberado y reacción instintiva.
Capacidades y rendimiento
Helix está diseñado para controlar el cuerpo superior completo de un robot humaniode, abarcando 35 grados de libertad (DoF), que incluyen posiciones de muñecas, flexión y abducción de dedos, orientación de torso y cabeza, además de una acción sintética de “porcentaje de tarea completada”.
Este control se realiza a una frecuencia de salida de 200 Hz, lo que asegura movimientos ágiles y precisos.
Este control se realiza a una frecuencia de salida de 200 Hz, lo que asegura movimientos ágiles y precisos.

Una de sus características más destacadas es la generalización zero-shot, permitiendo a los robots manejar miles de objetos nuevos sin entrenamiento previo.
En demostraciones, se mostró a dos robots Figure equipados con Helix trabajando en colaboración para guardar la compra, manejando objetos como paquetes de galletas, botellas de ketchup y manzanas, respondiendo a comandos de voz como “pasa el paquete de galletas al robot de tu derecha” o “coloca el objeto en el cajón abierto”.
Estos robots, sin conocimiento previo de los ítems, identificaron correctamente qué objetos debían ir al refrigerador y cuáles en almacenamiento seco, demostrando una capacidad de razonamiento similar a la humana.
En demostraciones, se mostró a dos robots Figure equipados con Helix trabajando en colaboración para guardar la compra, manejando objetos como paquetes de galletas, botellas de ketchup y manzanas, respondiendo a comandos de voz como “pasa el paquete de galletas al robot de tu derecha” o “coloca el objeto en el cajón abierto”.
Estos robots, sin conocimiento previo de los ítems, identificaron correctamente qué objetos debían ir al refrigerador y cuáles en almacenamiento seco, demostrando una capacidad de razonamiento similar a la humana.
Helix también es el primer modelo VLA (Vision-Language-Action) capaz de coordinar manipulación multi-robot, facilitando tareas colaborativas. Esto abre la puerta a aplicaciones en entornos domésticos, donde la variabilidad de objetos y tareas es alta, y en industrias como la manufactura y la logística.
Entrenamiento
El sistema fue entrenado con aproximadamente 500 horas de comportamientos robotizados teleoperados, recopilados de múltiples robots y operadores, y se utilizó un proceso de etiquetado automático con VLM para generar pares condicionados por lenguaje natural.
Esto asegura que Helix pueda interpretar y ejecutar instrucciones basadas en voz sin necesidad de programación manual.
Esto asegura que Helix pueda interpretar y ejecutar instrucciones basadas en voz sin necesidad de programación manual.
Helix está listo para uso comercial y se ejecuta en GPUs integradas de bajo consumo, utilizando un pipeline de inferencia dividido: S2 para planificación de alto nivel y S1 para control en tiempo real a 200 Hz.
Esto lo hace práctico para despliegues en el mundo real, sin requerir potencia de cómputo externa, y lo posiciona como una solución viable para hogares e industrias.
Esto lo hace práctico para despliegues en el mundo real, sin requerir potencia de cómputo externa, y lo posiciona como una solución viable para hogares e industrias.
Escalabilidad
Helix introduce una novedad en la escalabilidad de la robótica, porque no depende de la programación tradicional sino de un esfuerzo colectivo que hace que los modelos sean más capaces sin necesidad de entrenamiento previo en tareas específicas.
Esto significa que los robots pueden volverse más inteligente y hacer mejor las tareas con el tiempo sin requerir actualizaciones constantes de sus sistemas o nuevos datos de entrenamiento. Esto abre la puerta a una escalabilidad masiva, con objetivos como llegar a un nivel de producción de mil millones de unidades, según declaraciones del CEO, Brett Adcock.
Asociaciones y Proyecciones Financieras
Figure AI ha asegurado acuerdos con BMW Manufacturing y un cliente importante no identificado en EE. UU., creando un camino hacia la producción de 100,000 robots en los próximos cuatro años (ojo).
La empresa además obtuvo $675 millones de inversores como Microsoft, NVIDIA y Jeff Bezos, y está en conversaciones para levantar otros $1,500 millones.
La empresa además obtuvo $675 millones de inversores como Microsoft, NVIDIA y Jeff Bezos, y está en conversaciones para levantar otros $1,500 millones.
Especificaciones técnicas de Helix
Aspecto | Detalles |
---|---|
Tipo | Modelo VLA para control generalista de humanoides |
Innovaciones | Primer VLA para control completo del cuerpo superior, colaboración multi-robot, generalización zero-shot |
Sistema 2 (S2) | VLM preentrenado, 7B parámetros, 7-9 Hz, comprensión de escena y lenguaje |
Sistema 1 (S1) | Política visuomotora, 80M parámetros, 200 Hz, control en tiempo real |
Entrenamiento | ~500 horas de comportamientos teleoperados, etiquetado automático |
Espacio de Acción | 35 DoF, salida a 200 Hz, incluye muñecas, dedos, torso, cabeza |
Despliegue | Corre en GPUs integradas de bajo consumo, pipeline dividido (S2 para planificación, S1 para control) |
Rendimiento | Generaliza a miles de objetos nuevos, coordina tareas multi-robot, responde a comandos de voz |
Esta innovación promete transformar la interacción entre humanos y robots, especialmente en hogares, donde la falta de estructura y la variedad de tareas han sido desafíos siempre.
Figure AI planea expandir su equipo de IA, enfocándose en infraestructura de entrenamiento, evaluación de modelos a gran escala, ingeniería de manipulación y aprendizaje por refuerzo.
Yo estoy asombrada.
Figure AI planea expandir su equipo de IA, enfocándose en infraestructura de entrenamiento, evaluación de modelos a gran escala, ingeniería de manipulación y aprendizaje por refuerzo.
Yo estoy asombrada.