¿Cuál es la diferencia entre capacidad y agencia?

La capacidad es lo que un modelo sabe o puede hacer de forma aislada; la agencia es lo que un sistema completo logra realmente en un entorno. La evaluación agéntica mide esto último.

¿Por qué ya no bastan los benchmarks estáticos?

Los mejores modelos los saturan y dejan de discriminar. Además no prueban uso de herramientas, entornos ni tareas de horizonte largo, que es donde está el rendimiento real de un agente.

¿Cómo se relacionan las evaluaciones con la ingeniería de harness?

Las evaluaciones son el bucle de medición que hace posible la ingeniería de harness: cambias el harness, mides el efecto y conservas lo que demuestra mejorar el rendimiento en la tarea.

ConceptosActualizado 2026-06-21 · Versión 1.0

¿Qué es la Evaluación de IA Agéntica?

La evaluación de IA agéntica es la práctica de medir cómo de bien un agente completa tareas de varios pasos con uso de herramientas en un entorno, no solo la calidad de una única respuesta. A medida que los modelos saturan los benchmarks estáticos de conocimiento, la evaluación se desplaza de medir capacidad (lo que un modelo sabe) a medir agencia (lo que un sistema realmente logra hacer). Unas buenas evaluaciones son el bucle de feedback que hace posible la ingeniería de harness.

Evidencia: Observación del sectorConfianza: AltaFuente: Observación del sectorFuente: Paper

Legible por máquina: JSON

Definición

La evaluación agéntica es la medición del rendimiento de extremo a extremo de un agente de IA —tasa de éxito, fiabilidad, coste y seguridad— en tareas realistas de varios pasos dentro de un entorno.

Puntos clave

Evaluar la finalización de la tarea (agencia), no solo la calidad de la respuesta (capacidad).
Los benchmarks agénticos prueban herramientas, entornos y horizontes largos.
Los benchmarks estáticos se saturan; los agénticos son la nueva frontera.
Las evaluaciones son el bucle de feedback para mejorar el harness.
Medir juntos éxito, fiabilidad, coste, latencia y seguridad.

Contexto

Los benchmarks tradicionales hacen preguntas a un modelo y puntúan las respuestas. Eso mide capacidad, pero dice poco sobre si un sistema puede completar trabajo real. La evaluación agéntica, en cambio, coloca a un agente en un entorno con herramientas y un objetivo, y puntúa si realmente lo alcanza.

Este cambio importa porque el valor en producción viene de completar tareas. Un agente que responde bien pero no termina las tareas no es útil. La evaluación es también lo que permite mejorar los harness de forma sistemática y no por anécdota.

Arquitectura

Una evaluación agéntica define tareas, un entorno (real o simulado) con herramientas, un criterio de éxito y métricas. El agente se ejecuta; su trayectoria y su resultado se puntúan automáticamente cuando es posible, con revisión humana para casos con matiz.

Más allá de una sola tasa de éxito, la evaluación madura sigue la fiabilidad entre ejecuciones, los presupuestos de coste y latencia, y la seguridad (¿se mantuvo el agente dentro de su autorización y evitó acciones dañinas?). Las trazas de observabilidad alimentan directamente el diseño de las evaluaciones.

Componentes

Suite de tareasEntorno y herramientasCriterios de éxitoMétricas (éxito, coste, latencia, seguridad)Evaluadores automáticosRevisión humanaTrazas de trayectoria

Beneficios

Mide lo que de verdad importa: la finalización de la tarea.
Detecta regresiones antes de que lleguen a los usuarios.
Convierte la mejora del harness en un bucle medible.
Saca a la luz fiabilidad, coste y seguridad, no solo precisión.

Riesgos

Difícil construir entornos y evaluadores realistas.
Sobreajuste a un benchmark en vez del rendimiento real.
Saturación: los benchmarks pierden poder discriminativo con el tiempo.
La evaluación automática puede perder matices; la revisión humana es cara.

Herramientas y tecnologías

SWE-bench y otros benchmarks agénticosLangSmith / LangfuseOpenAI EvalsHarness de tareas a medidaEvaluadores LLM-as-judge

Ejemplos

Puntuar a un agente de programación según si su parche hace pasar una suite de tests real.
Medir la tasa de resolución de tickets de extremo a extremo de un agente de soporte.
Seguir la fiabilidad de un agente de flujo de trabajo en ejecuciones repetidas.

FAQs

¿Cuál es la diferencia entre capacidad y agencia?: La capacidad es lo que un modelo sabe o puede hacer de forma aislada; la agencia es lo que un sistema completo logra realmente en un entorno. La evaluación agéntica mide esto último.
¿Por qué ya no bastan los benchmarks estáticos?: Los mejores modelos los saturan y dejan de discriminar. Además no prueban uso de herramientas, entornos ni tareas de horizonte largo, que es donde está el rendimiento real de un agente.
¿Qué es un benchmark agéntico?: Una prueba que puntúa la capacidad de un agente para completar tareas de varios pasos con uso de herramientas en un entorno; por ejemplo, resolver incidencias reales de software.
¿Cómo se relacionan las evaluaciones con la ingeniería de harness?: Las evaluaciones son el bucle de medición que hace posible la ingeniería de harness: cambias el harness, mides el efecto y conservas lo que demuestra mejorar el rendimiento en la tarea.