Isso não é só RAG?

RAG é o núcleo, mas a arquitetura é definida pelo que a torna segura para a empresa: recuperação com permissões, citações, um harness de avaliação e observabilidade. Essas são as partes que decidem se ela pode ser confiável.

Por que aplicar permissões durante a recuperação?

Para que o modelo nunca veja documentos aos quais o usuário não pode acessar. Filtrar após a geração é tarde demais: o conteúdo já poderia ter vazado na resposta.

Como evitar que as respostas aluciem?

Fundamente cada resposta em trechos recuperados com citações, meça a fundamentação contra um conjunto de avaliação, e deixe o assistente se abster quando a recuperação for fraca em vez de preencher a lacuna.

ARCH-002Conhecimento e buscaAtualizado 2026-06-21 · Versão 1.0

Assistente de Conhecimento Empresarial

Uma arquitetura de referência para um assistente de conhecimento interno que responde perguntas dos funcionários a partir dos próprios documentos da empresa —wikis, políticas, tickets, código— com citações e respeitando as permissões de acesso de cada usuário. Combina recuperação híbrida e reranking para fundamentar, filtragem por permissões para segurança, e um harness de avaliação para que a qualidade seja medida em vez de assumida. O difícil não é o modelo; é a qualidade da recuperação, o controle de acesso e a avaliação.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Legível por máquina: JSON

Conceitos-chave

Recuperação com permissões: um usuário só recupera documentos que tem permissão de ver.
Busca híbrida + reranking: combinar busca por palavras-chave e vetorial, e então reordenar por precisão.
Citações: cada resposta liga aos seus trechos fonte para verificação.
Avaliação: a qualidade das respostas é pontuada contra um conjunto curado, continuamente.

Definição

A arquitetura de assistente de conhecimento empresarial é um sistema RAG com consciência de permissões que responde perguntas de funcionários a partir de documentos internos com citações, restrito aos direitos de acesso de cada usuário e avaliado continuamente.

Arquitetura

O conteúdo de muitas fontes internas é ingerido, fragmentado e incorporado em um armazenamento vetorial, com cada fragmento marcado pelos metadados de controle de acesso do seu documento de origem. Na consulta, o assistente roteia a pergunta, executa recuperação híbrida (palavras-chave + vetorial) filtrada às permissões do usuário, reordena os candidatos e sintetiza uma resposta citada a partir dos melhores trechos.

A segurança é estrutural, não acoplada: o filtro de controle de acesso é aplicado durante a recuperação, então o modelo nunca vê documentos aos quais o usuário não pode acessar. Um cache semântico serve perguntas repetidas de forma barata, e os guard-rails mantêm as respostas dentro da política e sinalizam os casos de baixa confiança.

A qualidade é governada por medição: um harness de avaliação pontua as respostas por fundamentação, correção e precisão de citações contra um conjunto curado, e um loop opcional avaliador-otimizador revisa as respostas fracas antes de chegarem ao usuário. A observabilidade rastreia cada consulta para diagnosticar falhas e realimentar as avaliações.

Fluxo de requisição

1. Ingestão (offline): fragmentar e incorporar documentos; marcar cada fragmento com metadados de controle de acesso.
2. Rotear: classificar a pergunta e escolher a estratégia de recuperação.
3. Recuperar: busca híbrida filtrada às permissões do usuário (com cache verificado primeiro).
4. Reordenar: reordenar candidatos por precisão; manter os melhores trechos.
5. Sintetizar: gerar uma resposta citada; opcionalmente revisá-la com um loop avaliador.
6. Devolver e registrar: entregar a resposta com citações; rastrear e pontuar para avaliação.

Componentes

Pipeline de ingestão e fragmentaçãoEmbeddings + armazenamento vetorialFiltro de recuperação com permissõesBusca híbrida e rerankerSíntese de resposta com citaçõesCache semânticoHarness de avaliação e observabilidade

Cenário de referência

Contexto: Um assistente interno ilustrativo sobre a wiki de uma empresa, as políticas de RH e TI, e a documentação de engenharia.
Cenário: Os funcionários fazem perguntas em linguagem natural ('como faço para reembolsar viagem?', 'qual é a política de plantão?'); o assistente responde com citações, sem nunca mostrar documentos que quem pergunta não pode ver, e diz 'não sei' em vez de adivinhar quando a recuperação é fraca.
Tecnologia: Pipeline de ingestão, embeddings + armazenamento vetorial com metadados de ACL, recuperação híbrida e reranking, um harness de avaliação e rastreamento de consultas.
Carga: Tráfego interno estável com forte sobreposição de consultas (poucas políticas geram a maioria das perguntas), então a taxa de acertos de cache é alta e os embeddings dominam o custo offline.
Resultados: Meta de referência: respostas fundamentadas e citadas sem vazamentos de controle de acesso, e uma pontuação de fundamentação mensurável que melhora ao ajustar a recuperação. Trate todos os números como algo a medir no seu corpus, não como garantias.

Benefícios

Transforma o conhecimento interno disperso em respostas instantâneas e citadas.
A recuperação com permissões previne vazamentos de controle de acesso por construção.
As citações tornam as respostas verificáveis e geram confiança.
Um harness de avaliação torna a qualidade mensurável e as melhorias demonstráveis.

Riscos

Vazamentos de controle de acesso se as permissões não forem aplicadas na recuperação.
Respostas obsoletas quando o corpus muda mais rápido que a reindexação.
Alucinação confiante quando a recuperação é fraca e o modelo preenche a lacuna.
Fragmentação ruim que quebra o significado e degrada a recuperação.

KPIs

Fundamentação: Proporção de respostas totalmente apoiadas pelos trechos citados; a métrica de qualidade central de um assistente RAG.
Recall@k de recuperação: Com que frequência o trecho certo está nos top-k recuperados; a maioria dos erros de resposta remonta a isso.
Taxa de vazamento de controle de acesso: Qualquer resposta que mostre um documento ao qual o usuário não podia acessar; a métrica que deve ficar em zero.
Taxa de acertos de cache e custo por consulta: Cobertura de perguntas repetidas e custo unitário; uma alta sobreposição deve baratear a maioria das consultas.
Qualidade de abstenção: Com que frequência o assistente diz corretamente 'não sei' em vez de alucinar diante de uma recuperação fraca.

Custo e escalabilidade

A incorporação e indexação offline dominam o custo de ingestão e crescem com o tamanho do corpus e a frequência de atualização.
O custo na consulta é principalmente recuperação + geração; o reranking adiciona latência que você troca por precisão.
O cache achata o custo à medida que a sobreposição de consultas sobe, então o custo unitário cai com a adoção.
A cadência de reindexação é a real tensão de escala: respostas mais frescas custam mais computação.

Modos de falha observados

Bypass de permissões: um fragmento herda a ACL errada e aparece nos resultados de um usuário.
Lacunas de recuperação: o documento certo existe mas a fragmentação ou os embeddings não o encontram.
Obsolescência: uma resposta cita uma política superada porque a reindexação atrasou.
Deriva de citação: o trecho citado não apoia de fato a afirmação gerada.

Lições aprendidas

Aplique o controle de acesso dentro da recuperação, não após a geração; filtrar o prompt é tarde demais.
A maioria dos ganhos de qualidade vem da recuperação (fragmentação, busca híbrida, reranking), não de um modelo maior.
Torne 'não sei' uma resposta de primeira classe; uma resposta confiante e errada é pior que uma abstenção.
Monte a avaliação antes de escalar; sem ela, cada mudança é um palpite.

Tecnologias

RAG (retrieval-augmented generation)Embeddings + vector storeHybrid search & rerankingDocument-level access controlEvaluation harnessObservability (LangSmith / Langfuse)

Exemplos

Um funcionário perguntando a política de reembolso de viagem e obtendo uma resposta citada e atualizada.
Uma pergunta sobre um projeto restrito devolvendo corretamente nada para um usuário não autorizado.
Uma consulta com recuperação fraca respondida com 'não tenho uma fonte confiável para isso' em vez de adivinhar.

FAQs

Isso não é só RAG?: RAG é o núcleo, mas a arquitetura é definida pelo que a torna segura para a empresa: recuperação com permissões, citações, um harness de avaliação e observabilidade. Essas são as partes que decidem se ela pode ser confiável.
Por que aplicar permissões durante a recuperação?: Para que o modelo nunca veja documentos aos quais o usuário não pode acessar. Filtrar após a geração é tarde demais: o conteúdo já poderia ter vazado na resposta.
Como evitar que as respostas aluciem?: Fundamente cada resposta em trechos recuperados com citações, meça a fundamentação contra um conjunto de avaliação, e deixe o assistente se abster quando a recuperação for fraca em vez de preencher a lacuna.

Padrões usados

Roteamento (Routing)Cache Semântico (Semantic Caching)Avaliador-Otimizador (Evaluator-Optimizer)Encadeamento de Prompts (Prompt Chaining)

Apoia-se em

O que é RAG empresarial (Enterprise RAG)?O que são Embeddings e Busca Vetorial?O que é Engenharia de Contexto (Context Engineering)?O que são Guard-rails de IA (Guardrails)?O que é Avaliação de IA Agêntica?O que é Governança de IA (AI Governance)?