ConfiabilidadeAtualizado 2026-06-21 · Versão 1.0

Reflexão (Reflection)

A reflexão faz um modelo criticar sua própria saída e depois revisá-la, usando a crítica como feedback. É uma forma leve, de um único modelo, de capturar erros e melhorar a qualidade em tarefas de raciocínio, código e escrita, ao custo de chamadas extras.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Definição

A reflexão é um padrão em que um modelo revisa e critica a própria saída frente a critérios explícitos e depois a corrige, trocando inferência adicional por mais qualidade.

Problema

Os modelos muitas vezes produzem uma primeira resposta defeituosa que poderiam melhorar se solicitados a revisar o próprio trabalho, mas uma única passagem não lhes dá a chance.

Quando usar

Use a reflexão quando um passo de autorrevisão melhore a saída de forma mensurável e você queira uma alternativa mais simples ao laço avaliador de dois modelos — comum em tarefas de raciocínio e código.

Solução

Após gerar uma resposta, peça ao mesmo modelo que a critique frente ao objetivo (e qualquer feedback de ferramentas como resultados de testes ou erros), e depois que produza uma resposta revisada informada por essa crítica. Repita um número limitado de iterações.

A reflexão funciona melhor ancorada em sinais reais — erros de execução, saída de testes, fatos recuperados — que na pura autoavaliação, que pode ser confiante demais.

Componentes

Geração inicialPasso de autocríticaSinal de ancoragem (erros / testes / fatos)RevisãoOrçamento de iteração

Benefícios

  • Melhora a qualidade com um único modelo, sem segundo sistema.
  • Eficaz quando ancorada em feedback de ferramentas ou testes.
  • Simples de adicionar a uma chamada existente.

Riscos

  • A autocrítica pode ser confiante demais ou não ver seus erros.
  • As chamadas extras adicionam latência e custo.
  • Sem ancoragem, os ganhos são limitados.

Quando não usar

  • Quando você tem uma verificação externa objetiva: use avaliador-otimizador.
  • Quando uma única passagem já alcança o nível.
  • Quando os orçamentos de latência são muito apertados.

Tecnologias

LangGraphAgent frameworksLLM-as-judge

Exemplos

  • Um agente de código que lê falhas de testes e corrige seu próprio patch.
  • Uma tarefa de raciocínio em que o modelo revisa seus passos antes de responder.
  • Um rascunho que o modelo revisa em busca de lacunas antes de finalizar.

Evidência de produção

Contexto
Tarefas onde a qualidade importa mais que latência ou custo —redação, geração de código, análise— e onde os erros são detectáveis na revisão.
Cenário
Após produzir uma primeira resposta, o modelo (ou um crítico à parte) a avalia frente a critérios concretos e produz uma versão revisada; o laço é limitado a uma ou duas passagens.
Tecnologia
Uma cadeia de prompts criticar-depois-revisar, idealmente apoiada por sinais externos (testes, ferramentas, um avaliador à parte) para o trabalho de alto risco.
Carga
Cada passagem de reflexão ao menos duplica as chamadas, então é aplicada de forma seletiva às saídas que justificam o sobrecusto.
Resultados
Padrão observado: a reflexão melhora a qualidade onde o modelo consegue de fato detectar os próprios erros, mas pode sobrerrevisar respostas corretas e ao menos duplica o custo. Meça o ganho frente a um conjunto de avaliação antes de confiar nela, e prefira sinais externos quando há muito em jogo.

KPIs

Ganho de qualidade pela reflexão
Melhoria medida na qualidade com o passo de reflexão versus sem ele; se não for mensurável, o passo não justifica seu custo.
Taxa de autocorreção
Proporção de erros reais que o modelo detecta e corrige ao revisar, distinta de edições cosméticas.
Latência e custo adicionados
A reflexão ao menos duplica as chamadas; vigie o sobrecusto frente à qualidade que traz.
Taxa de sobrerrevisão
Com que frequência a reflexão degrada uma resposta já boa ao questioná-la em excesso.

Modos de falha observados

  • Pontos cegos de autoavaliação: um modelo costuma não ver os próprios erros, então a reflexão os ignora.
  • Sobrerrevisão: o modelo 'corrige' uma resposta correta e a piora.
  • Custo e latência dobram (ou mais) para um ganho de qualidade marginal ou nulo.
  • Falsa confiança: o modelo afirma que a saída já está correta quando não está.

Lições aprendidas

  • Meça o ganho; a reflexão vale a pena só onde melhora a qualidade de forma demonstrável.
  • Prefira sinais externos (testes, ferramentas, um avaliador à parte) à pura autocrítica quando há muito em jogo.
  • Limite a reflexão a uma ou duas passagens: os retornos caem rápido e o custo se acumula.
  • Dê ao passo de reflexão critérios concretos, não um vago 'melhore isto'.

FAQs

Reflexão ou avaliador-otimizador?
A reflexão usa um modelo para se autocriticar (mais simples); o avaliador-otimizador usa um avaliador separado (mais afiado, menos enviesado). Escolha conforme quão confiável é a autoavaliação na sua tarefa.
A reflexão sempre ajuda?
Ajuda mais quando ancorada em feedback real como resultados de testes ou erros. A pura autoavaliação pode ser confiante demais e agregar pouco.
Quantas rodadas de reflexão?
Mantenha limitado, muitas vezes uma ou duas. Os retornos decrescentes e o custo crescente fazem laços longos raramente valerem a pena.

Referências