O que é Fine-tuning (Ajuste fino)?
O fine-tuning continua o treinamento de um modelo pré-treinado com um conjunto de dados menor e direcionado para especializar seu comportamento, estilo ou conhecimento de domínio. É muito mais barato que o pré-treinamento e muda os pesos do modelo, ao contrário do prompting ou da recuperação, que o deixam intacto. Use-o para fixar um formato, tom ou habilidade consistentes; use recuperação quando precisar de fatos frescos ou privados.
Definição
O fine-tuning é o processo de seguir treinando um modelo pré-treinado com um conjunto de dados focado para adaptar seus pesos rumo a um comportamento, estilo, formato ou domínio específico.
Pontos-chave
- O fine-tuning atualiza os pesos do modelo; o prompting e o RAG não.
- Melhor para comportamento, estilo ou formato consistentes, não para fatos frescos.
- Métodos eficientes em parâmetros (LoRA) o tornam barato e prático.
- O RLHF é uma forma de fine-tuning que usa preferências humanas.
- Comece por prompting e recuperação; faça fine-tuning quando estagnarem.
Contexto
Um modelo de fundação pré-treinado é um generalista. O fine-tuning o estreita: após ver exemplos suficientes do comportamento alvo, o modelo o internaliza, então não é mais preciso especificá-lo em cada prompt.
É uma das três alavancas de adaptação, junto ao prompting e à recuperação. A arte está em escolher a adequada: fine-tuning para como o modelo deve se comportar, recuperação para o que deve saber.
Arquitetura
O fine-tuning completo atualiza todos os pesos: potente mas caro. O fine-tuning eficiente em parâmetros (PEFT), notavelmente o LoRA, treina pequenos pesos adaptadores congelando a base, capturando quase todo o benefício a uma fração do custo.
O instruction tuning e o RLHF são etapas especializadas de fine-tuning que transformam um modelo base bruto num assistente útil e alinhado. A qualidade do dataset importa muito mais que seu tamanho.
Componentes
Benefícios
- Fixa um comportamento, estilo ou formato consistentes.
- Reduz o comprimento do prompt e o custo por chamada.
- Pode ensinar habilidades estreitas que a base não tem.
- PEFT o torna acessível e rápido.
Riscos
- Não adiciona fatos frescos ou privados: use recuperação para isso.
- Risco de esquecimento catastrófico ou sobreajuste.
- Precisa de um dataset de qualidade bem rotulado e um conjunto de avaliação.
- Acopla você a uma versão de modelo; custo de migração ao atualizar.
Ferramentas e tecnologias
Exemplos
- Fazer fine-tuning para um modelo emitir sempre um formato JSON estrito da empresa.
- Ensinar uma voz de marca consistente para textos gerados.
- Adaptar um modelo à terminologia de um domínio especializado.
FAQs
- Fine-tuning ou RAG?
- Faça fine-tuning para mudar como o modelo se comporta (estilo, formato, habilidade); use recuperação (RAG) para dar-lhe conhecimento fresco ou privado. São complementares, não rivais.
- O fine-tuning é caro?
- O completo pode ser, mas métodos eficientes como o LoRA treinam adaptadores minúsculos e o tornam barato e rápido para a maioria dos casos.
- O que é RLHF?
- O aprendizado por reforço com feedback humano é uma etapa de fine-tuning que usa julgamentos de preferência humana para tornar um modelo mais útil, inofensivo e honesto.
- Quando devo fazer fine-tuning?
- Quando o prompting e a recuperação estagnam. Se você pode resolver com um prompt melhor ou contexto relevante, faça isso primeiro: é mais barato e flexível.