En otro artículo debatíamos sobre la conveniencia de utilizar modelos razonadores como R1 de DeepSeek o el modelo o-3 de OpenAI, o modelos tipo chat como GPT4.
Pero además de la conveniencia de saber cual elegir, las técnicas de prompting se ha demostrado que tiene que ser distintas.
Vemos cómo hacer prompts eficaces en este tipo de modelos.
- Usar prompts mínimos para tareas complejas:
- Confiar en prompts simples de zero-shot o de una sola instrucción
- Dejar que las capacidades de razonamiento integradas del modelo manejen la complejidad
- Evitar prompts demasiado detallados o extensos
- Fomentar más razonamiento para tareas muy complejas:
- Instruir explícitamente al modelo para que dedique más tiempo a razonar sobre el problema
- Los experimentos muestran una correlación entre más tokens de razonamiento y un mejor rendimiento en tareas altamente complejas
- Evitar prompts de few-shot:
- Omitir proporcionar ejemplos en el prompt o limitarse a 1-2 ejemplos como máximo
- El prompting de few-shot perjudicó consistentemente el rendimiento de los modelos de razonamiento en varios estudios
- Limitar el prompting de chain-of-thought (CoT) para tareas simples:
- Evitar instruir al modelo para que muestre su razonamiento en tareas sencillas
- El prompting de CoT puede llevar al modelo a pensar demasiado y desempeñarse peor en problemas simples
- Usar prompts directos para tareas que no requieren múltiples pasos de razonamiento
- Aprovechar las habilidades de razonamiento integradas del modelo para problemas de varios pasos:
- Los modelos de razonamiento superan a los modelos sin razonamiento en tareas que requieren 5 o más pasos de razonamiento
- Confiar en que el modelo maneje los pasos intermedios sin una guía explícita
- Usar prompts claros y estructurados para garantizar formatos de salida consistentes:
- Mantener los prompts concisos y específicos sobre la estructura de salida deseada
- Esto es especialmente importante para la generación de código u otras salidas estructuradas
- Considerar el ensamblaje de prompts (ensembling) para tareas críticas y de alto riesgo:
- Generar múltiples salidas usando prompts ligeramente variados
- Seleccionar la respuesta más consistente en el conjunto
- El ensembling aumenta la confiabilidad pero incrementa el costo y la latencia
En resumen, la clave es proporcionar instrucciones mínimas pero claras, aprovechar las habilidades de razonamiento innatas del modelo, evitar complicar en exceso las tareas simples y ser selectivo sobre cuándo emplear técnicas más avanzadas como el ensembling.
Fuente: Prompt Hub