Harness EngineeringAtualizado 2026-06-21 · Versão 1.0

O que é Engenharia de Contexto (Context Engineering)?

A engenharia de contexto é a disciplina de decidir qual informação entra na janela de contexto limitada de um modelo a cada passo, e o que fica de fora. Como os agentes rodam em muitos passos, enfiar tudo ingenuamente no contexto degrada qualidade e custo. A engenharia de contexto cura as instruções, o conhecimento recuperado, os resultados de ferramentas e a memória adequados para que o modelo tenha exatamente o que precisa quando precisa. É uma parte central da engenharia de harness.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Definição

A engenharia de contexto é a prática de curar, comprimir e sequenciar a informação colocada na janela de contexto de um modelo para que ele tenha o sinal mais relevante — e o menor ruído — a cada passo.

Pontos-chave

  • O contexto é um recurso escasso; o que você deixa de fora importa tanto quanto o que inclui.
  • Mais contexto não é melhor: tokens irrelevantes degradam a qualidade e elevam o custo.
  • Técnicas: recuperação, resumo, compactação e memória estruturada.
  • Generaliza a engenharia de prompts de um prompt para toda uma execução de agente.
  • É uma camada central do harness em torno do modelo.

Contexto

Todo modelo tem uma janela de contexto finita, e a qualidade se degrada quando ela é preenchida com conteúdo de baixo sinal. No uso de um único turno é gerenciável, mas os agentes acumulam histórico, saídas de ferramentas e documentos recuperados ao longo de muitos passos, saturando rápido a janela.

A engenharia de contexto trata a janela como um orçamento a gerir de forma deliberada: manter as instruções duráveis, recuperar só o relevante agora, resumir ou compactar o resto e guardar o estado de longo prazo fora da janela na memória.

Arquitetura

Movimentos centrais: selecionar (recuperar só trechos relevantes), comprimir (resumir passos anteriores), compactar (descartar ou dobrar turnos obsoletos) e externalizar (levar o estado de longo prazo a um armazenamento de memória e trazê-lo sob demanda).

Num laço de agente, o contexto é remontado a cada passo a partir de fontes em camadas: instruções de sistema estáveis, estado da tarefa, conhecimento recuperado relevante, resultados recentes de ferramentas e memórias de longo prazo selecionadas, ordenados para que o sinal mais importante seja o mais saliente.

Componentes

Instruções de sistemaEstado da tarefaConhecimento recuperadoResultados de ferramentasMemória de longo prazoResumos / compactação

Benefícios

  • Mantém a qualidade alta quando as tarefas se alongam.
  • Controla o custo de tokens e a latência.
  • Reduz a distração e a alucinação por ruído.
  • Habilita agentes de horizonte longo dentro de um contexto finito.

Riscos

  • Uma compressão agressiva demais pode descartar informação necessária.
  • Uma recuperação ruim injeta contexto irrelevante ou errado.
  • Complexidade ao decidir o que manter a cada passo.
  • Bugs aqui aparecem como regressões sutis de qualidade.

Ferramentas e tecnologias

Pipelines de recuperação / RAGModelos de resumoArmazenamentos de memóriaFrameworks de gestão de contexto (ex.: LangGraph)

Exemplos

  • Resumir passos anteriores do agente para a janela seguir focada na subtarefa atual.
  • Recuperar só a seção da política relevante a uma pergunta em vez de todo o manual.
  • Guardar as preferências de um usuário na memória e lembrá-las só quando relevantes.

FAQs

Qual a diferença para a engenharia de prompts?
A engenharia de prompts cria uma única instrução. A engenharia de contexto gere todo o conjunto de informação na janela ao longo de uma execução de agente, incluindo recuperação, memória, resultados de ferramentas e compressão.
Por que não usar simplesmente uma janela de contexto maior?
Janelas maiores ajudam mas não eliminam o problema: qualidade e custo se degradam ao se encherem de tokens de baixo sinal. A curadoria ainda vence.
Como se relaciona com RAG e memória?
RAG e memória são fontes de contexto; a engenharia de contexto decide o que delas realmente entra na janela, quando e em que forma.
É parte da engenharia de harness?
Sim. A gestão de contexto é uma das camadas centrais do harness que converte a capacidade do modelo em comportamento confiável do agente.

Referências