Reflexão ou avaliador-otimizador?

A reflexão usa um modelo para se autocriticar (mais simples); o avaliador-otimizador usa um avaliador separado (mais afiado, menos enviesado). Escolha conforme quão confiável é a autoavaliação na sua tarefa.

A reflexão sempre ajuda?

Ajuda mais quando ancorada em feedback real como resultados de testes ou erros. A pura autoavaliação pode ser confiante demais e agregar pouco.

Quantas rodadas de reflexão?

Mantenha limitado, muitas vezes uma ou duas. Os retornos decrescentes e o custo crescente fazem laços longos raramente valerem a pena.

ConfiabilidadeAtualizado 2026-06-21 · Versão 1.0

Reflexão (Reflection)

A reflexão faz um modelo criticar sua própria saída e depois revisá-la, usando a crítica como feedback. É uma forma leve, de um único modelo, de capturar erros e melhorar a qualidade em tarefas de raciocínio, código e escrita, ao custo de chamadas extras.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Legível por máquina: JSON

Definição

A reflexão é um padrão em que um modelo revisa e critica a própria saída frente a critérios explícitos e depois a corrige, trocando inferência adicional por mais qualidade.

Problema

Os modelos muitas vezes produzem uma primeira resposta defeituosa que poderiam melhorar se solicitados a revisar o próprio trabalho, mas uma única passagem não lhes dá a chance.

Quando usar

Use a reflexão quando um passo de autorrevisão melhore a saída de forma mensurável e você queira uma alternativa mais simples ao laço avaliador de dois modelos — comum em tarefas de raciocínio e código.

Solução

Após gerar uma resposta, peça ao mesmo modelo que a critique frente ao objetivo (e qualquer feedback de ferramentas como resultados de testes ou erros), e depois que produza uma resposta revisada informada por essa crítica. Repita um número limitado de iterações.

A reflexão funciona melhor ancorada em sinais reais — erros de execução, saída de testes, fatos recuperados — que na pura autoavaliação, que pode ser confiante demais.

Componentes

Geração inicialPasso de autocríticaSinal de ancoragem (erros / testes / fatos)RevisãoOrçamento de iteração

Benefícios

Melhora a qualidade com um único modelo, sem segundo sistema.
Eficaz quando ancorada em feedback de ferramentas ou testes.
Simples de adicionar a uma chamada existente.

Riscos

A autocrítica pode ser confiante demais ou não ver seus erros.
As chamadas extras adicionam latência e custo.
Sem ancoragem, os ganhos são limitados.

Quando não usar

Quando você tem uma verificação externa objetiva: use avaliador-otimizador.
Quando uma única passagem já alcança o nível.
Quando os orçamentos de latência são muito apertados.

Tecnologias

LangGraphAgent frameworksLLM-as-judge

Exemplos

Um agente de código que lê falhas de testes e corrige seu próprio patch.
Uma tarefa de raciocínio em que o modelo revisa seus passos antes de responder.
Um rascunho que o modelo revisa em busca de lacunas antes de finalizar.

Evidência de produção

Contexto: Tarefas onde a qualidade importa mais que latência ou custo —redação, geração de código, análise— e onde os erros são detectáveis na revisão.
Cenário: Após produzir uma primeira resposta, o modelo (ou um crítico à parte) a avalia frente a critérios concretos e produz uma versão revisada; o laço é limitado a uma ou duas passagens.
Tecnologia: Uma cadeia de prompts criticar-depois-revisar, idealmente apoiada por sinais externos (testes, ferramentas, um avaliador à parte) para o trabalho de alto risco.
Carga: Cada passagem de reflexão ao menos duplica as chamadas, então é aplicada de forma seletiva às saídas que justificam o sobrecusto.
Resultados: Padrão observado: a reflexão melhora a qualidade onde o modelo consegue de fato detectar os próprios erros, mas pode sobrerrevisar respostas corretas e ao menos duplica o custo. Meça o ganho frente a um conjunto de avaliação antes de confiar nela, e prefira sinais externos quando há muito em jogo.

KPIs

Ganho de qualidade pela reflexão: Melhoria medida na qualidade com o passo de reflexão versus sem ele; se não for mensurável, o passo não justifica seu custo.
Taxa de autocorreção: Proporção de erros reais que o modelo detecta e corrige ao revisar, distinta de edições cosméticas.
Latência e custo adicionados: A reflexão ao menos duplica as chamadas; vigie o sobrecusto frente à qualidade que traz.
Taxa de sobrerrevisão: Com que frequência a reflexão degrada uma resposta já boa ao questioná-la em excesso.

Modos de falha observados

Pontos cegos de autoavaliação: um modelo costuma não ver os próprios erros, então a reflexão os ignora.
Sobrerrevisão: o modelo 'corrige' uma resposta correta e a piora.
Custo e latência dobram (ou mais) para um ganho de qualidade marginal ou nulo.
Falsa confiança: o modelo afirma que a saída já está correta quando não está.

Lições aprendidas

Meça o ganho; a reflexão vale a pena só onde melhora a qualidade de forma demonstrável.
Prefira sinais externos (testes, ferramentas, um avaliador à parte) à pura autocrítica quando há muito em jogo.
Limite a reflexão a uma ou duas passagens: os retornos caem rápido e o custo se acumula.
Dê ao passo de reflexão critérios concretos, não um vago 'melhore isto'.

FAQs

Reflexão ou avaliador-otimizador?: A reflexão usa um modelo para se autocriticar (mais simples); o avaliador-otimizador usa um avaliador separado (mais afiado, menos enviesado). Escolha conforme quão confiável é a autoavaliação na sua tarefa.
A reflexão sempre ajuda?: Ajuda mais quando ancorada em feedback real como resultados de testes ou erros. A pura autoavaliação pode ser confiante demais e agregar pouco.
Quantas rodadas de reflexão?: Mantenha limitado, muitas vezes uma ou duas. Os retornos decrescentes e o custo crescente fazem laços longos raramente valerem a pena.

Referências

Shinn et al. — Reflexion: Language Agents with Verbal Reinforcement Learning (2023)