Os guard-rails são o mesmo que alinhamento?

Não. O alinhamento molda o comportamento intrínseco do modelo durante o treinamento; os guard-rails são controles externos em execução ao redor do sistema implantado. São complementares.

Os guard-rails detêm a injeção de prompts?

Reduzem seu impacto — a filtragem de entrada e as listas de permitidos ajudam — mas nenhum guard-rail a previne por completo. Use defesas em camadas mais aprovação humana para ações sensíveis.

Guard-rails determinísticos ou baseados em modelo?

Ambos. As verificações determinísticas (esquemas, listas) são baratas e confiáveis para regras claras; as baseadas em modelo lidam com conteúdo com nuances ao custo de latência.

Como os guard-rails se encaixam na governança de IA?

São a camada operacional: os controles em execução que convertem as políticas de governança em comportamento exigido, evidenciado por registro e auditoria.

GovernançaAtualizado 2026-06-21 · Versão 1.0

O que são Guard-rails de IA (Guardrails)?

Os guard-rails são controles em tempo de execução que limitam o que entra e sai de um sistema de IA, mantendo seu comportamento seguro, em conformidade com a política e a regulação. Verificam e filtram entradas e saídas, validam ações de ferramentas, bloqueiam conteúdo não permitido e impõem limites, situando-se ao redor do modelo como camada de segurança. São um controle primário e operacional na governança de IA e uma defesa-chave contra o mau uso e a injeção de prompts.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Legível por máquina: JSON

Definição

Os guard-rails de IA são salvaguardas em tempo de execução que validam, filtram ou limitam as entradas, saídas e ações de um modelo para manter seu comportamento seguro, conforme e dentro da política definida.

Pontos-chave

Os guard-rails atuam em tempo de execução sobre entradas, saídas e ações.
Impõem segurança, política e conformidade, não a qualidade do modelo.
Tipos: filtragem de entrada, validação de saída, listas de permitidos de ações, limites.
Uma defesa central contra o mau uso e a injeção de prompts.
Complementam — não substituem — a avaliação e a supervisão.

Contexto

Um modelo sozinho não tem limites exigíveis; tentará o que o prompt provocar. Os guard-rails adicionam esses limites de forma operacional: verificações determinísticas ou baseadas em modelo que se situam entre o usuário, o modelo e os sistemas que ele pode tocar.

São a forma como as políticas de governança se tornam controles vivos. Uma política que diz 'nunca expor dados pessoais' ou 'nunca executar pagamentos sem aprovação' se materializa como um guard-rail que realmente verifica e bloqueia em tempo de execução.

Arquitetura

Os guard-rails de entrada filtram prompts (ex.: injeção, violações de política, dados pessoais). Os de saída validam respostas (formato, segurança, restrições factuais, redação de dados pessoais). Os de ação limitam as chamadas de ferramentas com permissões e listas de permitidos. Os limites de taxa, escopo e orçamento contêm o raio de impacto.

Podem ser determinísticos (regras, esquemas, regex, listas de permitidos) ou baseados em modelo (um classificador ou juiz LLM). Combinam-se com observabilidade para registrar violações e com aprovação com humano no laço para ações de alto impacto.

Componentes

Filtragem de entradaValidação / redação de saídaListas de permitidos e permissões de açãoLimites de taxa e escopoClassificadores de políticaRegistro de violações

Benefícios

Impõe segurança e política em execução, não só na orientação.
Reduz o mau uso, a saída insegura e o impacto da injeção.
Operacionaliza requisitos de governança e conformidade.
Limita o raio de impacto das ações do agente.

Riscos

O bloqueio em excesso prejudica a utilidade (falsos positivos).
O bloqueio insuficiente cria uma falsa sensação de segurança.
Os guard-rails baseados em modelo adicionam latência e custo.
Não são uma defesa completa; combine-os com supervisão e avaliações.

Ferramentas e tecnologias

Frameworks de guard-rails (ex.: NeMo Guardrails, Guardrails AI)Classificadores de moderação / segurançaValidação de esquemas e entradasMotores de permissões e políticasObservabilidade de violações

Exemplos

Redigir dados pessoais da saída de um modelo antes de exibi-la.
Bloquear uma chamada de ferramenta fora de uma lista de ações seguras.
Rejeitar respostas que não cumprem um esquema JSON exigido.

FAQs

Os guard-rails são o mesmo que alinhamento?: Não. O alinhamento molda o comportamento intrínseco do modelo durante o treinamento; os guard-rails são controles externos em execução ao redor do sistema implantado. São complementares.
Os guard-rails detêm a injeção de prompts?: Reduzem seu impacto — a filtragem de entrada e as listas de permitidos ajudam — mas nenhum guard-rail a previne por completo. Use defesas em camadas mais aprovação humana para ações sensíveis.
Guard-rails determinísticos ou baseados em modelo?: Ambos. As verificações determinísticas (esquemas, listas) são baratas e confiáveis para regras claras; as baseadas em modelo lidam com conteúdo com nuances ao custo de latência.
Como os guard-rails se encaixam na governança de IA?: São a camada operacional: os controles em execução que convertem as políticas de governança em comportamento exigido, evidenciado por registro e auditoria.