Por qué “open source” no significa lo mismo en inteligencia artificial

Por qué “open source” no significa lo mismo en inteligencia artificial

En los últimos años se ha vuelto habitual leer titulares que anuncian el lanzamiento de un nuevo modelo de inteligencia artificial “open source”.

Empresas tecnológicas, startups y medios especializados utilizan esta expresión para describir sistemas que, en teoría, cualquiera puede utilizar, estudiar o modificar. La idea parece sencilla: un modelo abierto frente a un modelo cerrado.

Sin embargo, en el mundo de la inteligencia artificial la realidad es bastante más compleja.

Cuando hablamos de software tradicional, el término open source tiene una definición bastante clara. Un programa es de código abierto cuando su código fuente está disponible públicamente y puede utilizarse, modificarse y redistribuirse bajo determinadas licencias.

Pero los modelos de inteligencia artificial no son solo código.

Un modelo moderno de IA es en realidad un sistema compuesto por varias piezas distintas: el código que define su arquitectura, los pesos que ha aprendido durante el entrenamiento, los datos con los que ha sido entrenado y la forma en que los usuarios pueden acceder a él.

Dependiendo de cuáles de estas partes se publiquen y cuáles permanezcan cerradas, el grado de apertura puede cambiar radicalmente.

Por eso, en inteligencia artificial, la apertura no es una cuestión binaria.

No existe únicamente el modelo abierto y el modelo cerrado. Existe todo un espectro intermedio en el que diferentes empresas publican algunas partes del sistema mientras mantienen otras bajo control.

En algunos casos se comparte el código pero no los pesos. En otros se distribuyen los pesos entrenados pero no el proceso de entrenamiento. También existen modelos que no publican nada, pero permiten acceder a ellos a través de una interfaz online o una API.

A pesar de estas diferencias, en la conversación pública todos estos sistemas suelen agruparse bajo la misma etiqueta: open source.

Esta simplificación ha generado bastante confusión.

Algunos modelos que se presentan como abiertos en realidad tienen licencias restrictivas que limitan su uso comercial. Otros permiten descargar los pesos pero no revelan los datos de entrenamiento, lo que impide auditar completamente cómo se ha construido el sistema.

Incluso dentro de la comunidad de inteligencia artificial existe un debate constante sobre qué debería considerarse realmente open source cuando hablamos de modelos de aprendizaje automático.

Comprender estas diferencias no es solo una cuestión técnica.

El nivel de apertura de un modelo puede influir en muchos aspectos del ecosistema de la inteligencia artificial: desde la investigación académica hasta la capacidad de las startups para construir nuevos productos, pasando por cuestiones de transparencia, seguridad o independencia tecnológica.

Por ejemplo, un modelo completamente cerrado puede ofrecer un rendimiento excelente y resultar muy fácil de utilizar, pero crea una dependencia total de la empresa que lo controla. Si esa empresa decide cambiar el precio, modificar las condiciones de uso o cerrar el servicio, los usuarios tienen muy poco margen de maniobra.

En cambio, un modelo más abierto puede permitir a investigadores y desarrolladores estudiar su funcionamiento, adaptarlo a necesidades concretas o integrarlo en sistemas propios sin depender de un proveedor externo.

Por eso, cuando escuchamos que un modelo es “open source”, la primera pregunta que deberíamos hacernos no es si es abierto o cerrado, sino qué parte del sistema está realmente abierta.

En los próximos artículos de esta serie analizaremos precisamente estas diferencias.

Primero veremos cuáles son las cuatro capas que determinan el nivel de apertura de un modelo de inteligencia artificial: el código, los pesos, los datos de entrenamiento y la forma de acceso al sistema. A partir de ahí será mucho más fácil entender por qué algunos modelos se consideran realmente abiertos, mientras que otros solo lo son parcialmente.