Técnicas emergentes en modelos de gran escala

Técnicas emergentes en modelos de gran escala

A medida que los modelos de inteligencia artificial han crecido en escala y complejidad (especialmente en el ámbito del lenguaje natural y la IA generativa), han surgido nuevas técnicas diseñadas para afinar, adaptar o alinear el comportamiento de los modelos más allá del aprendizaje clásico supervisado o no supervisado.

Estas estrategias no constituyen un tipo de aprendizaje en sentido estricto, sino que actúan como etapas avanzadas dentro del proceso de entrenamiento y despliegue, pero son especialmente relevantes en modelos fundacionales y por ello creo que merecen una mención aquí.

Hablamos de técnicas como el instruction tuning, el fine-tuning supervisado, el aprendizaje con recompensa humana (RLHF), el aprendizaje continuo o el aprendizaje contrastivo que son esenciales hoy en día para lograr que los sistemas generen respuestas útiles, seguras y alineadas con las expectativas humanas.

Instruction Tuning (Aprendizaje instruccional)

El instruction tuning consiste en ajustar un modelo de lenguaje preentrenado para que entienda y responda de forma más coherente a instrucciones expresadas en lenguaje natural.

En lugar de aprender únicamente a predecir la siguiente palabra en un texto (como ocurre en el preentrenamiento), se entrena al modelo con ejemplos del tipo “instrucción + respuesta esperada”, como si fuera una conversación dirigida.

Este proceso mejora la capacidad del modelo para seguir instrucciones humanas, lo que lo hace mucho más útil en aplicaciones reales: asistentes virtuales, herramientas de productividad, buscadores inteligentes, etc.

En muchos casos, se utiliza un conjunto de instrucciones generadas por humanos o generadas automáticamente, acompañado de sus respuestas correctas. Supusieron un paso esencial en la mejora de modelos como GPT-3.5 o DeepSeek-VL.

RLHF – Reinforcement Learning from Human Feedback

El Reinforcement Learning from Human Feedback (RLHF) es una técnica que combina el aprendizaje por refuerzo con la retroalimentación humana para ajustar el comportamiento de un modelo según criterios, ajustes y elecciones de personas. En lugar de entrenar el modelo únicamente con datos o métricas automáticas, se incorpora el juicio humano como guía de mejora.

El proceso suele incluir tres fases principales:

  1. Entrenamiento del modelo base, normalmente a través de instruction tuning o fine-tuning supervisado.
  2. Entrenamiento de un modelo de recompensa, que aprende a partir de comparaciones entre respuestas generadas por el modelo y valoradas por humanos (por ejemplo, “esta respuesta es mejor que esta otra”).
  3. Optimización del modelo mediante aprendizaje por refuerzo, utilizando algoritmos como PPO (Proximal Policy Optimization) guiados por el modelo de recompensa.

RLHF ha sido una técnica clave para que modelos como ChatGPT, Claude o Gemini generen respuestas más útiles, seguras, respetuosas y alineadas con valores humanos.

Sin embargo, como todo lo que implica elecciones humanas, también plantea retos éticos y técnicos importantes sobre quién define las preferencias o qué sesgos se pueden introducir a través de la señal de recompensa.

Supervised Fine Tuning (SFT)

El Supervised Fine Tuning (SFT) es el proceso de ajuste supervisado de un modelo preentrenado utilizando un conjunto de datos cuidadosamente diseñado, con pares de entrada-salida.

A diferencia del entrenamiento inicial (preentrenamiento no supervisado, donde el modelo aprende a predecir tokens), en el SFT el modelo aprende a realizar tareas concretas con ejemplos etiquetados: responder preguntas, traducir textos, resumir información, etc.

Este ajuste suele ser el primer paso después del preentrenamiento y antes del RLHF o Instruction Tuning, y permite que el modelo entienda mejor el formato esperado de tareas humanas. La calidad de los datos utilizados en el SFT tiene un gran impacto en el comportamiento del modelo final: claridad, diversidad, corrección y balance son aspectos fundamentales.

Continual Learning (Aprendizaje continuo)

El aprendizaje continuo es un enfoque que busca permitir que un modelo siga aprendiendo de nuevos datos con el tiempo, sin olvidar lo que ya sabía. En los sistemas tradicionales de machine learning, cuando se entrena el modelo con nuevos datos, se corre el riesgo de que pierda el conocimiento anterior (catastrophic forgetting).

Este problema es muy importante en modelos de lenguaje o visión artificial que necesitan adaptarse a nueva información. Las estrategias de aprendizaje continuo incluyen el uso de técnicas de consolidación, destilación, regularización o arquitecturas modulares para mantener el equilibrio entre lo aprendido y lo nuevo.

Es una línea de investigación activa y plantea muchos retos hoy, pero es esencial para desarrollar modelos personalizables o adaptables sin necesidad de reentrenar desde cero.

Aprendizaje Contrastivo

El aprendizaje contrastivo es una técnica que permite aprender representaciones semánticas útiles diferenciando pares de ejemplos que deben estar cerca o lejos entre sí en el espacio vectorial del modelo. El modelo no aprende a predecir una etiqueta, sino a distinguir qué pares están relacionados (positivos) y cuáles no (negativos).

Explicado de forma más sencilla: No se basa en enseñar a un modelo a predecir etiquetas específicas (como “perro” o “gato”), sino en enseñarle a distinguir entre cosas que están relacionadas y cosas que no lo están.

¿Cómo lo hace? Al modelo se le muestran pares de datos.

Algunos pares son positivos: por ejemplo, una imagen y su descripción correcta.

Otros son negativos: como una imagen y una descripción que no tiene nada que ver.

El objetivo es que el modelo acerque entre sí los elementos relacionados en su representación interna (es decir, en su espacio vectorial) y aleje los no relacionados.

Este proceso permite que el modelo aprenda representaciones útiles del contenido, incluso sin necesidad de muchas etiquetas.

Se utiliza ampliamente en tareas como:

  • Aprendizaje multimodal (por ejemplo, emparejar una imagen con su descripción).
  • Construcción de embeddings útiles para recuperación de información, clasificación o clustering.
  • Modelos como CLIP (de OpenAI), SimCLR o algunos módulos de BERT usan aprendizaje contrastivo como parte central del entrenamiento.