Assistente de Conhecimento Empresarial
Uma arquitetura de referência para um assistente de conhecimento interno que responde perguntas dos funcionários a partir dos próprios documentos da empresa —wikis, políticas, tickets, código— com citações e respeitando as permissões de acesso de cada usuário. Combina recuperação híbrida e reranking para fundamentar, filtragem por permissões para segurança, e um harness de avaliação para que a qualidade seja medida em vez de assumida. O difícil não é o modelo; é a qualidade da recuperação, o controle de acesso e a avaliação.
Conceitos-chave
- Recuperação com permissões: um usuário só recupera documentos que tem permissão de ver.
- Busca híbrida + reranking: combinar busca por palavras-chave e vetorial, e então reordenar por precisão.
- Citações: cada resposta liga aos seus trechos fonte para verificação.
- Avaliação: a qualidade das respostas é pontuada contra um conjunto curado, continuamente.
Definição
A arquitetura de assistente de conhecimento empresarial é um sistema RAG com consciência de permissões que responde perguntas de funcionários a partir de documentos internos com citações, restrito aos direitos de acesso de cada usuário e avaliado continuamente.
Arquitetura
O conteúdo de muitas fontes internas é ingerido, fragmentado e incorporado em um armazenamento vetorial, com cada fragmento marcado pelos metadados de controle de acesso do seu documento de origem. Na consulta, o assistente roteia a pergunta, executa recuperação híbrida (palavras-chave + vetorial) filtrada às permissões do usuário, reordena os candidatos e sintetiza uma resposta citada a partir dos melhores trechos.
A segurança é estrutural, não acoplada: o filtro de controle de acesso é aplicado durante a recuperação, então o modelo nunca vê documentos aos quais o usuário não pode acessar. Um cache semântico serve perguntas repetidas de forma barata, e os guard-rails mantêm as respostas dentro da política e sinalizam os casos de baixa confiança.
A qualidade é governada por medição: um harness de avaliação pontua as respostas por fundamentação, correção e precisão de citações contra um conjunto curado, e um loop opcional avaliador-otimizador revisa as respostas fracas antes de chegarem ao usuário. A observabilidade rastreia cada consulta para diagnosticar falhas e realimentar as avaliações.
Fluxo de requisição
- 1. Ingestão (offline): fragmentar e incorporar documentos; marcar cada fragmento com metadados de controle de acesso.
- 2. Rotear: classificar a pergunta e escolher a estratégia de recuperação.
- 3. Recuperar: busca híbrida filtrada às permissões do usuário (com cache verificado primeiro).
- 4. Reordenar: reordenar candidatos por precisão; manter os melhores trechos.
- 5. Sintetizar: gerar uma resposta citada; opcionalmente revisá-la com um loop avaliador.
- 6. Devolver e registrar: entregar a resposta com citações; rastrear e pontuar para avaliação.
Componentes
Cenário de referência
- Contexto
- Um assistente interno ilustrativo sobre a wiki de uma empresa, as políticas de RH e TI, e a documentação de engenharia.
- Cenário
- Os funcionários fazem perguntas em linguagem natural ('como faço para reembolsar viagem?', 'qual é a política de plantão?'); o assistente responde com citações, sem nunca mostrar documentos que quem pergunta não pode ver, e diz 'não sei' em vez de adivinhar quando a recuperação é fraca.
- Tecnologia
- Pipeline de ingestão, embeddings + armazenamento vetorial com metadados de ACL, recuperação híbrida e reranking, um harness de avaliação e rastreamento de consultas.
- Carga
- Tráfego interno estável com forte sobreposição de consultas (poucas políticas geram a maioria das perguntas), então a taxa de acertos de cache é alta e os embeddings dominam o custo offline.
- Resultados
- Meta de referência: respostas fundamentadas e citadas sem vazamentos de controle de acesso, e uma pontuação de fundamentação mensurável que melhora ao ajustar a recuperação. Trate todos os números como algo a medir no seu corpus, não como garantias.
Benefícios
- Transforma o conhecimento interno disperso em respostas instantâneas e citadas.
- A recuperação com permissões previne vazamentos de controle de acesso por construção.
- As citações tornam as respostas verificáveis e geram confiança.
- Um harness de avaliação torna a qualidade mensurável e as melhorias demonstráveis.
Riscos
- Vazamentos de controle de acesso se as permissões não forem aplicadas na recuperação.
- Respostas obsoletas quando o corpus muda mais rápido que a reindexação.
- Alucinação confiante quando a recuperação é fraca e o modelo preenche a lacuna.
- Fragmentação ruim que quebra o significado e degrada a recuperação.
KPIs
- Fundamentação
- Proporção de respostas totalmente apoiadas pelos trechos citados; a métrica de qualidade central de um assistente RAG.
- Recall@k de recuperação
- Com que frequência o trecho certo está nos top-k recuperados; a maioria dos erros de resposta remonta a isso.
- Taxa de vazamento de controle de acesso
- Qualquer resposta que mostre um documento ao qual o usuário não podia acessar; a métrica que deve ficar em zero.
- Taxa de acertos de cache e custo por consulta
- Cobertura de perguntas repetidas e custo unitário; uma alta sobreposição deve baratear a maioria das consultas.
- Qualidade de abstenção
- Com que frequência o assistente diz corretamente 'não sei' em vez de alucinar diante de uma recuperação fraca.
Custo e escalabilidade
- A incorporação e indexação offline dominam o custo de ingestão e crescem com o tamanho do corpus e a frequência de atualização.
- O custo na consulta é principalmente recuperação + geração; o reranking adiciona latência que você troca por precisão.
- O cache achata o custo à medida que a sobreposição de consultas sobe, então o custo unitário cai com a adoção.
- A cadência de reindexação é a real tensão de escala: respostas mais frescas custam mais computação.
Modos de falha observados
- Bypass de permissões: um fragmento herda a ACL errada e aparece nos resultados de um usuário.
- Lacunas de recuperação: o documento certo existe mas a fragmentação ou os embeddings não o encontram.
- Obsolescência: uma resposta cita uma política superada porque a reindexação atrasou.
- Deriva de citação: o trecho citado não apoia de fato a afirmação gerada.
Lições aprendidas
- Aplique o controle de acesso dentro da recuperação, não após a geração; filtrar o prompt é tarde demais.
- A maioria dos ganhos de qualidade vem da recuperação (fragmentação, busca híbrida, reranking), não de um modelo maior.
- Torne 'não sei' uma resposta de primeira classe; uma resposta confiante e errada é pior que uma abstenção.
- Monte a avaliação antes de escalar; sem ela, cada mudança é um palpite.
Tecnologias
Exemplos
- Um funcionário perguntando a política de reembolso de viagem e obtendo uma resposta citada e atualizada.
- Uma pergunta sobre um projeto restrito devolvendo corretamente nada para um usuário não autorizado.
- Uma consulta com recuperação fraca respondida com 'não tenho uma fonte confiável para isso' em vez de adivinhar.
FAQs
- Isso não é só RAG?
- RAG é o núcleo, mas a arquitetura é definida pelo que a torna segura para a empresa: recuperação com permissões, citações, um harness de avaliação e observabilidade. Essas são as partes que decidem se ela pode ser confiável.
- Por que aplicar permissões durante a recuperação?
- Para que o modelo nunca veja documentos aos quais o usuário não pode acessar. Filtrar após a geração é tarde demais: o conteúdo já poderia ter vazado na resposta.
- Como evitar que as respostas aluciem?
- Fundamente cada resposta em trechos recuperados com citações, meça a fundamentação contra um conjunto de avaliação, e deixe o assistente se abster quando a recuperação for fraca em vez de preencher a lacuna.