Helix, el robot humanoide de Figure AI que lo cambia todo

Helix, el robot humanoide de Figure AI que lo cambia todo

Figure AI, una startup de robótica con sede en Sunnyvale, California, ha introducido un avance significativo en el campo de los robots humanoides con su nuevo sistema de inteligencia artificial, Helix. 
 
HELIX - Robot - Figure AI

Este modelo, anunciado esta semana, marca un hito al permitir que los robots interpreten comandos de lenguaje natural y manipulen objetos desconocidos sin necesidad de entrenamiento específico, rompiendo la dependencia de programación extensa o demostraciones previas para cada tarea. 

Por culpa de este desarrollo Figure AI ha finalizado su colaboración con OpenAI, uno de sus inversores.

Cómo “piensa” Helix

Helix opera con una arquitectura dual inspirada en la cognición humana, dividida en dos sistemas complementarios:

  • Sistema 2 (S2): Es un modelo de lenguaje y visión (VLM) preentrenado en internet, con 7 billones de parámetros, que funciona a una frecuencia de 7 a 9 Hz. Se encarga de la comprensión de alto nivel, incluyendo la interpretación de escenas y comandos de lenguaje natural, lo que permite una generalización amplia frente a diferentes objetos y contextos.
  • Sistema 1 (S1): Una mecánica visuomotora rápida con 80 millones de parámetros, basada en transformadores, que opera a 200 Hz. Traduce las representaciones semánticas generadas por S2 en acciones precisas y continuas del robot, asegurando respuestas en tiempo real.
Esta separación permite que S2 “piense lento” para planificar objetivos de alto nivel, mientras S1 “piensa rápido” para ejecutar y ajustar movimientos, reflejando cómo los humanos combinan pensamiento deliberado y reacción instintiva.
 

Capacidades y rendimiento

Helix está diseñado para controlar el cuerpo superior completo de un robot humaniode, abarcando 35 grados de libertad (DoF), que incluyen posiciones de muñecas, flexión y abducción de dedos, orientación de torso y cabeza, además de una acción sintética de “porcentaje de tarea completada”. 
Este control se realiza a una frecuencia de salida de 200 Hz, lo que asegura movimientos ágiles y precisos.

helix
 
Una de sus características más destacadas es la generalización zero-shot, permitiendo a los robots manejar miles de objetos nuevos sin entrenamiento previo. 
En demostraciones, se mostró a dos robots Figure equipados con Helix trabajando en colaboración para guardar la compra, manejando objetos como paquetes de galletas, botellas de ketchup y manzanas, respondiendo a comandos de voz como “pasa el paquete de galletas al robot de tu derecha” o “coloca el objeto en el cajón abierto”. 

Estos robots, sin conocimiento previo de los ítems, identificaron correctamente qué objetos debían ir al refrigerador y cuáles en almacenamiento seco, demostrando una capacidad de razonamiento similar a la humana.

Helix también es el primer modelo VLA (Vision-Language-Action) capaz de coordinar manipulación multi-robot, facilitando tareas colaborativas. Esto abre la puerta a aplicaciones en entornos domésticos, donde la variabilidad de objetos y tareas es alta, y en industrias como la manufactura y la logística.

Entrenamiento 

 

El sistema fue entrenado con aproximadamente 500 horas de comportamientos robotizados teleoperados, recopilados de múltiples robots y operadores, y se utilizó un proceso de etiquetado automático con VLM para generar pares condicionados por lenguaje natural. 
Esto asegura que Helix pueda interpretar y ejecutar instrucciones basadas en voz sin necesidad de programación manual.
Helix está listo para uso comercial y se ejecuta en GPUs integradas de bajo consumo, utilizando un pipeline de inferencia dividido: S2 para planificación de alto nivel y S1 para control en tiempo real a 200 Hz. 

Esto lo hace práctico para despliegues en el mundo real, sin requerir potencia de cómputo externa, y lo posiciona como una solución viable para hogares e industrias.

Escalabilidad

 

Helix introduce una novedad en la escalabilidad de la robótica, porque no depende de la programación tradicional sino de un esfuerzo colectivo que hace que los modelos sean más capaces sin necesidad de entrenamiento previo en tareas específicas. 
Esto significa que los robots pueden volverse más inteligente y hacer mejor las tareas con el tiempo sin requerir actualizaciones constantes de sus sistemas o nuevos datos de entrenamiento. Esto abre la puerta a una escalabilidad masiva, con objetivos como llegar a un nivel de producción de mil millones de unidades, según declaraciones del CEO, Brett Adcock.

Asociaciones y Proyecciones Financieras
 
Figure AI ha asegurado acuerdos con BMW Manufacturing y un cliente importante no identificado en EE. UU., creando un camino hacia la producción de 100,000 robots en los próximos cuatro años (ojo). 
La empresa además obtuvo $675 millones de inversores como Microsoft, NVIDIA y Jeff Bezos, y está en conversaciones para levantar otros $1,500 millones.

Especificaciones técnicas de Helix

 

Aspecto
Detalles
Tipo
Modelo VLA para control generalista de humanoides
Innovaciones
Primer VLA para control completo del cuerpo superior, colaboración multi-robot, generalización zero-shot
Sistema 2 (S2)
VLM preentrenado, 7B parámetros, 7-9 Hz, comprensión de escena y lenguaje
Sistema 1 (S1)
Política visuomotora, 80M parámetros, 200 Hz, control en tiempo real
Entrenamiento
~500 horas de comportamientos teleoperados, etiquetado automático
Espacio de Acción
35 DoF, salida a 200 Hz, incluye muñecas, dedos, torso, cabeza
Despliegue
Corre en GPUs integradas de bajo consumo, pipeline dividido (S2 para planificación, S1 para control)
Rendimiento
Generaliza a miles de objetos nuevos, coordina tareas multi-robot, responde a comandos de voz
 
Esta innovación promete transformar la interacción entre humanos y robots, especialmente en hogares, donde la falta de estructura y la variedad de tareas han sido desafíos siempre. 

Figure AI planea expandir su equipo de IA, enfocándose en infraestructura de entrenamiento, evaluación de modelos a gran escala, ingeniería de manipulación y aprendizaje por refuerzo.

Yo estoy asombrada.