OrquestraçãoAtualizado 2026-06-21 · Versão 1.0

Roteamento (Routing)

O roteamento classifica uma entrada e a direciona ao manipulador, prompt ou modelo especializado mais adequado. Melhora a qualidade ao otimizar cada caminho para seu caso e controla o custo enviando requisições fáceis a modelos baratos e as difíceis a modelos capazes.

Evidência: Observação do setorConfiança: AltaFonte: Observação do setorFonte: Paper

Definição

O roteamento é um padrão que classifica cada requisição recebida e a despacha ao manipulador ou modelo mais apropriado, de modo que entradas fáceis usam caminhos baratos e as difíceis, modelos capazes.

Problema

Um único prompt ou modelo lidando com cada tipo de entrada faz cada uma pior, e usar um modelo caro para tudo desperdiça dinheiro em requisições fáceis.

Quando usar

Use o roteamento quando as entradas caem em categorias distintas que se beneficiam de tratamento diferente — diferentes prompts, ferramentas, modelos ou fluxos — e as categorias podem ser classificadas de forma confiável.

Solução

Um classificador leve (uma chamada ao LLM ou um modelo) rotula a entrada, e então um roteador a envia ao manipulador adequado. Cada manipulador é especializado e otimizado para sua categoria.

O roteamento também permite escalonar custo-desempenho: roteie consultas simples a um modelo rápido e barato e as complexas a um modelo de raciocínio mais forte, pagando por capacidade só quando necessário.

Componentes

ClassificadorLógica de roteamentoManipuladores especializadosRota padrão / fallback

Benefícios

  • Cada caminho é otimizado para seu caso, elevando a qualidade.
  • Controle de custo escalonando modelos conforme a dificuldade.
  • A separação de responsabilidades mantém cada manipulador simples.

Riscos

  • A má classificação envia entradas pelo caminho errado.
  • O classificador adiciona um passo e alguma latência.
  • A deriva de categorias ao longo do tempo degrada a precisão.

Quando não usar

  • Quando as entradas são homogêneas: basta um manipulador.
  • Quando as categorias não podem ser classificadas de forma confiável.
  • Quando o passo de classificação adicionado não compensa o ganho.

Tecnologias

Classifier modelsLangGraphModel routersRules engines

Exemplos

  • Rotear chamados de suporte a manipuladores de faturamento, técnico ou vendas.
  • Enviar perguntas simples a um modelo pequeno e as difíceis a um de raciocínio.
  • Direcionar diferentes tipos de documento a extratores específicos por tipo.

Evidência de produção

Contexto
Cargas mistas onde as requisições variam muito em dificuldade ou tipo: consultas de suporte, agentes com várias ferramentas, seleção de modelo.
Cenário
Um roteador leve classifica a entrada por intenção e dificuldade e a despacha ao modelo ou caminho correspondente, com uma rota padrão para entradas que não encaixam bem em nada.
Tecnologia
Um classificador barato (regras, embeddings ou um modelo pequeno) colocado na frente de vários manipuladores ou modelos especializados.
Carga
Uma pequena fração de entradas difíceis vai ao caminho caro; as entradas comuns e fáceis tomam o caminho barato, concentrando o gasto onde importa.
Resultados
Padrão observado: o roteamento reduz custo e latência reservando os modelos capazes para as entradas que precisam deles, mas um roteamento errado pode custar muito mais que a economia. Otimize pelo custo de um roteamento errado, mantenha o roteador barato, adicione uma rota de fallback e vigie a deriva de entradas.

KPIs

Precisão de roteamento
Proporção de entradas enviadas ao manipulador/modelo correto; a métrica que define o valor do padrão.
Economia vs. usar sempre o melhor modelo
Dinheiro economizado ao rotear entradas fáceis para modelos mais baratos em vez do melhor para tudo.
Custo de roteamento errado
O dano posterior de rotas erradas; um roteamento errado pode custar muito mais que a economia buscada.
Sobrecusto de latência do roteador
Tempo que a própria decisão de roteamento adiciona antes de começar o trabalho real.

Modos de falha observados

  • Má classificação: o roteador envia uma entrada ao modelo ou rota errados, degradando a resposta.
  • Entradas ambíguas que não encaixam bem em nenhuma rota e são forçadas a uma deficiente.
  • O roteador vira gargalo ou ponto único de falha de cada requisição.
  • Deriva: a distribuição de entradas muda com o tempo e as categorias do roteador ficam obsoletas.

Lições aprendidas

  • Otimize pelo custo de um roteamento errado, não só pela precisão: algumas rotas erradas são muito mais caras que outras.
  • Adicione uma rota padrão / de fallback para entradas que não encaixem bem em nada.
  • Mantenha o roteador barato e rápido; se custa tanto quanto o trabalho, perde o sentido.
  • Monitore a deriva de entradas e reajuste as rotas quando a distribuição mudar.

FAQs

O que classifica a entrada?
Normalmente uma chamada leve ao LLM ou um modelo classificador dedicado; para casos claros, regras determinísticas podem rotear sem modelo.
Como o roteamento economiza custo?
Escalonando: as requisições fáceis vão a modelos baratos e rápidos e só as difíceis chegam a modelos de raciocínio caros, então você paga por capacidade só quando necessário.
E se o classificador errar?
Forneça uma rota padrão sensata e monitore os erros de rota; um manipulador de fallback e boa observabilidade limitam o impacto da má classificação.

Referências