Qual é a diferença entre capacidade e agência?

Capacidade é o que um modelo sabe ou pode fazer isoladamente; agência é o que um sistema completo realmente realiza num ambiente. A avaliação agêntica mede o segundo.

Por que os benchmarks estáticos já não bastam?

Os melhores modelos os saturam e deixam de discriminar. Além disso não testam uso de ferramentas, ambientes nem tarefas de horizonte longo, que é onde está o desempenho real de um agente.

Como as avaliações se relacionam com a engenharia de harness?

As avaliações são o laço de medição que torna possível a engenharia de harness: você muda o harness, mede o efeito e mantém o que comprovadamente melhora o desempenho na tarefa.

ConceitosAtualizado 2026-06-21 · Versão 1.0

O que é Avaliação de IA Agêntica?

A avaliação de IA agêntica é a prática de medir quão bem um agente conclui tarefas de vários passos com uso de ferramentas num ambiente, não só a qualidade de uma única resposta. À medida que os modelos saturam os benchmarks estáticos de conhecimento, a avaliação se desloca de medir capacidade (o que um modelo sabe) para medir agência (o que um sistema realmente consegue concluir). Boas avaliações são o laço de feedback que torna possível a engenharia de harness.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Legível por máquina: JSON

Definição

A avaliação agêntica é a medição do desempenho de ponta a ponta de um agente de IA — taxa de sucesso, confiabilidade, custo e segurança — em tarefas realistas de vários passos dentro de um ambiente.

Pontos-chave

Avaliar a conclusão da tarefa (agência), não só a qualidade da resposta (capacidade).
Os benchmarks agênticos testam ferramentas, ambientes e horizontes longos.
Os benchmarks estáticos saturam; os agênticos são a nova fronteira.
As avaliações são o laço de feedback para melhorar o harness.
Medir juntos sucesso, confiabilidade, custo, latência e segurança.

Contexto

Os benchmarks tradicionais fazem perguntas a um modelo e pontuam as respostas. Isso mede capacidade, mas diz pouco sobre se um sistema consegue concluir trabalho real. A avaliação agêntica, em vez disso, coloca um agente num ambiente com ferramentas e um objetivo, e pontua se ele realmente o alcança.

Essa mudança importa porque o valor em produção vem de concluir tarefas. Um agente que responde bem mas não termina as tarefas não é útil. A avaliação é também o que permite melhorar os harnesses de forma sistemática e não por anedota.

Arquitetura

Uma avaliação agêntica define tarefas, um ambiente (real ou simulado) com ferramentas, um critério de sucesso e métricas. O agente é executado; sua trajetória e seu resultado são pontuados automaticamente quando possível, com revisão humana para casos com nuance.

Além de uma única taxa de sucesso, a avaliação madura acompanha a confiabilidade entre execuções, os orçamentos de custo e latência, e a segurança (o agente se manteve dentro de sua autorização e evitou ações nocivas?). Os rastros de observabilidade alimentam diretamente o design das avaliações.

Componentes

Suíte de tarefasAmbiente e ferramentasCritérios de sucessoMétricas (sucesso, custo, latência, segurança)Avaliadores automáticosRevisão humanaRastros de trajetória

Benefícios

Mede o que de fato importa: a conclusão da tarefa.
Detecta regressões antes de chegarem aos usuários.
Transforma a melhoria do harness num laço mensurável.
Revela confiabilidade, custo e segurança, não só precisão.

Riscos

Difícil construir ambientes e avaliadores realistas.
Sobreajuste a um benchmark em vez do desempenho real.
Saturação: os benchmarks perdem poder discriminativo com o tempo.
A avaliação automática pode perder nuances; a revisão humana é cara.

Ferramentas e tecnologias

SWE-bench e outros benchmarks agênticosLangSmith / LangfuseOpenAI EvalsHarness de tarefas sob medidaAvaliadores LLM-as-judge

Exemplos

Pontuar um agente de programação conforme seu patch faça passar uma suíte de testes real.
Medir a taxa de resolução de chamados de ponta a ponta de um agente de suporte.
Acompanhar a confiabilidade de um agente de fluxo de trabalho em execuções repetidas.

FAQs

Qual é a diferença entre capacidade e agência?: Capacidade é o que um modelo sabe ou pode fazer isoladamente; agência é o que um sistema completo realmente realiza num ambiente. A avaliação agêntica mede o segundo.
Por que os benchmarks estáticos já não bastam?: Os melhores modelos os saturam e deixam de discriminar. Além disso não testam uso de ferramentas, ambientes nem tarefas de horizonte longo, que é onde está o desempenho real de um agente.
O que é um benchmark agêntico?: Um teste que pontua a capacidade de um agente de concluir tarefas de vários passos com uso de ferramentas num ambiente; por exemplo, resolver issues reais de software.
Como as avaliações se relacionam com a engenharia de harness?: As avaliações são o laço de medição que torna possível a engenharia de harness: você muda o harness, mede o efeito e mantém o que comprovadamente melhora o desempenho na tarefa.