¿En qué se diferencia de la reflexión?

La reflexión hace que el mismo modelo se autocritique. El evaluador-optimizador separa los roles: un evaluador distinto juzga al generador, lo que suele dar feedback más afilado y menos sesgado.

¿El evaluador puede ser determinista?

Sí. Para código, un runner de tests es un evaluador ideal; para salida estructurada, sirve una comprobación de esquema. Usa un juez modelo para criterios con matices.

¿Cuántas iteraciones?

Fija un presupuesto (p. ej. 2-3) y para cuando se cumplan los criterios. Los bucles sin límite malgastan coste y pueden no converger.

FiabilidadActualizado 2026-06-21 · Versión 1.0

Evaluador-Optimizador (Evaluator-Optimizer)

Un LLM genera una respuesta mientras un segundo LLM la evalúa contra criterios y devuelve feedback; el generador revisa y el bucle se repite hasta que la evaluación pasa. Eleva la calidad en tareas con criterios de evaluación claros, a costa de llamadas extra.

Evidencia: Observación del sectorConfianza: AltaFuente: Observación del sectorFuente: Paper

Legible por máquina: JSON

Problema

Una salida de una sola pasada puede incumplir requisitos, y no hay un mecanismo incorporado para comprobarla y mejorarla antes de usarla.

Cuándo usarlo

Usa evaluador-optimizador cuando puedas articular criterios de evaluación claros y el refinamiento iterativo mejore el resultado de forma medible —por ejemplo calidad de traducción, código que debe pasar tests, o escritura contra una rúbrica.

Solución

Un generador produce un candidato; un evaluador (otra llamada al LLM o una comprobación determinista) lo puntúa contra criterios explícitos y devuelve feedback accionable. El generador revisa y el ciclo se repite hasta cumplir los criterios o alcanzar un presupuesto.

Separar generación de evaluación imita cómo un escritor humano se beneficia de un editor: el crítico atrapa problemas que el autor pasa por alto, y los criterios explícitos mantienen el bucle convergiendo.

Componentes

GeneradorEvaluador (juez LLM o comprobación de reglas)Criterios explícitosBucle de revisiónCondición de parada / presupuesto

Beneficios

Mayor calidad en tareas con criterios claros.
Atrapa errores que una sola pasada publicaría.
El feedback es explícito y accionable.

Riesgos

Las llamadas extra añaden latencia y coste.
Un evaluador débil da feedback engañoso.
Los bucles pueden no converger sin un presupuesto.

Cuándo no usarlo

Cuando los criterios no se pueden definir con claridad.
Cuando una sola pasada ya es suficientemente buena.
Cuando los presupuestos de latencia o coste son muy ajustados.

Tecnologías

LangGraphLLM-as-judgeOpenAI Agents SDKEvaluation suites

Ejemplos

Generar código, ejecutar tests y revisar hasta que pasen.
Redactar una traducción y refinarla contra el original.
Escribir contra una rúbrica con un crítico que exige cada criterio.

KPIs

Tasa de aceptación: Proporción de salidas que el evaluador acepta a la primera; demasiado alta indica un listón bajo, demasiado baja, un generador o rúbrica deficientes.
Iteraciones hasta aceptar: Bucles evaluar→revisar promedio antes de aceptar; si suben, el generador es débil o los criterios, vagos.
Coste y latencia por salida aceptada: Tokens y tiempo total de todas las iteraciones, no solo la llamada final: el bucle multiplica ambos.
Concordancia evaluador–humano: Con qué frecuencia el veredicto del evaluador coincide con un revisor humano en una muestra; el bucle vale lo que su evaluador.

Modos de fallo observados

Reward hacking: el generador aprende a satisfacer la redacción del evaluador en vez del objetivo real.
Evaluador débil o mal calibrado: acepta salidas malas o rechaza buenas, sumando coste sin calidad.
Bucles infinitos u oscilantes cuando ningún candidato supera el listón; sin un tope de iteraciones el coste es ilimitado.
Deriva de criterios: rúbricas vagas o cambiantes hacen la aceptación no determinista y difícil de auditar.

Lecciones aprendidas

Limita las iteraciones y define un respaldo (devolver el mejor hasta ahora o escalar) para que el bucle siempre termine.
Haz los criterios de aceptación explícitos y estables; un evaluador vale lo que su rúbrica.
Valida el evaluador frente al juicio humano antes de confiar en él como puerta.
Usa el bucle solo donde la calidad justifique el coste multiplicado, no para salidas baratas y de bajo riesgo.

FAQs

¿En qué se diferencia de la reflexión?: La reflexión hace que el mismo modelo se autocritique. El evaluador-optimizador separa los roles: un evaluador distinto juzga al generador, lo que suele dar feedback más afilado y menos sesgado.
¿El evaluador puede ser determinista?: Sí. Para código, un runner de tests es un evaluador ideal; para salida estructurada, sirve una comprobación de esquema. Usa un juez modelo para criterios con matices.
¿Cuántas iteraciones?: Fija un presupuesto (p. ej. 2-3) y para cuando se cumplan los criterios. Los bucles sin límite malgastan coste y pueden no converger.

Referencias

Anthropic — Building Effective Agents (2024)