Qué es un token en inteligencia artificial

Un token es una unidad mínima de texto que un modelo de lenguaje utiliza como entrada y como salida.

Los modelos no procesan frases ni palabras completas de forma directa. Procesan secuencias de tokens, que pueden representar:

Palabras completas.
Partes de palabras.
Símbolos.
Números.
Signos de puntuación.
Espacios o combinaciones frecuentes de caracteres.

El token es, por tanto, una unidad técnica, no lingüística.

Por qué los modelos usan tokens y no palabras

Contexto técnico

Los modelos de lenguaje se entrenan sobre texto convertido previamente en números. Para ello, el texto se divide en fragmentos estables y reutilizables que puedan representarse de forma eficiente en vectores.

Usar palabras completas tendría varios problemas:

El vocabulario sería enorme.
No gestionaría bien palabras nuevas o raras.
Sería ineficiente para distintos idiomas y variaciones morfológicas.

La tokenización permite:

Reutilizar fragmentos comunes.
Manejar palabras desconocidas.
Reducir el tamaño efectivo del vocabulario.
Trabajar de forma uniforme con distintos idiomas y estilos de texto.

Cómo se forman los tokens

Tokenización en la práctica

El proceso de dividir el texto en tokens se llama tokenización. Cada modelo utiliza un tokenizador concreto, entrenado junto al modelo.

Por ejemplo, una palabra como:

aprendizaje puede ser un token único.
O dividirse en varios tokens como aprendi y zaje.
Una palabra poco frecuente puede dividirse en fragmentos más pequeños.
Un número largo suele dividirse en varios tokens.
Los espacios también cuentan en muchos tokenizadores.

Esto significa que:

El mismo texto puede generar distinto número de tokens según el modelo.
Un token no equivale necesariamente a una palabra.

Como referencia aproximada en español e inglés, un token suele equivaler a unas 0,75 palabras, pero es solo una media orientativa.

Para qué sirven los tokens en un modelo de lenguaje

Los tokens son fundamentales en tres aspectos clave:

1. Entrada del modelo

Todo lo que se le pasa a un modelo, instrucciones, preguntas, contexto previo, se convierte en tokens antes de procesarse.

El límite de contexto de un modelo se mide en número máximo de tokens, no en caracteres ni en palabras.

2. Procesamiento interno

El modelo predice el siguiente token en función de los tokens anteriores. No razona en frases completas, sino en probabilidades de secuencias de tokens.

3. Salida del modelo

La respuesta generada también se produce token a token. El texto final es el resultado de convertir esos tokens de vuelta a texto legible.

Implicaciones prácticas del uso de tokens

Coste y precios

En muchos servicios de IA, el coste se calcula en función del número de tokens de entrada y de salida. Textos más largos implican más tokens y mayor coste.

Límite de contexto

El límite de contexto determina cuántos tokens puede manejar el modelo en total entre entrada y salida. Superar ese límite implica que el modelo no verá parte del texto.

Precisión y comportamiento

Cuando un texto es muy largo y se acerca al límite de tokens, el modelo puede:

Perder información inicial.
Responder de forma menos coherente.
Priorizar partes recientes del contexto.

Errores y malentendidos comunes

Confundir token con palabra

Un token no es una palabra. Puede ser menos o más que una palabra, dependiendo del caso.

Pensar que todos los modelos tokenizan igual

Cada modelo tiene su propio tokenizador. El mismo texto puede generar distintos tokens en modelos diferentes.

Creer que el límite se mide en caracteres

Los límites siempre se miden en tokens, no en letras ni en palabras.

Pensar que los tokens son solo un detalle técnico irrelevante

Los tokens afectan directamente al coste, al rendimiento, al contexto disponible y a la calidad de las respuestas.

Qué no es un token

No es una unidad semántica estable.
No representa necesariamente un concepto.
No equivale a una palabra, frase o idea.
No es algo que el modelo “entienda” como significado, sino como representación numérica.

La idea clave es sencilla pero importante:

Los modelos de lenguaje no trabajan con texto tal como lo leemos, sino con secuencias de tokens.

Entender qué es un token permite comprender mejor cómo funcionan los modelos de lenguaje, por qué tienen límites de contexto, cómo se calculan los costes y por qué a veces se comportan de forma aparentemente extraña.

Es un concepto básico, pero esencial, dentro del ecosistema técnico de la inteligencia artificial actual.