Pular para o conteúdo
Made For Builders iconoMade For Builders

DefinedTerm · Glossário

O que é RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation, em português Geração Aumentada por Recuperação) é uma arquitetura que combina um modelo de linguagem generativo com um módulo de recuperação de informação externo. Em vez de responder apenas a partir de seu conhecimento paramétrico, o modelo recupera fragmentos relevantes de uma base de conhecimento externa no momento da inferência e os usa como contexto para gerar a resposta. RAG é a estratégia técnica mais adotada para reduzir alucinações e manter atualizado o conhecimento de um LLM sem necessidade de retreiná-lo.

edu-lopez-paradaPublicado Actualizado

Definição ampliada

RAG (Retrieval-Augmented Generation, em português Geração Aumentada por Recuperação) é um paradigma que estende a capacidade de um modelo de linguagem grande (LLM) conectando-o a uma base de conhecimento externa consultável em tempo de inferência. O conceito foi introduzido formalmente por Lewis et al. em 2020 e se consolidou como o padrão de fato para sistemas de resposta a perguntas, agentes de IA e motores de busca generativos.

A arquitetura básica do RAG tem três componentes:

Recuperador (retriever). Recebe a consulta do usuário e busca na base de conhecimento indexada os fragmentos de texto mais relevantes. Os recuperadores modernos combinam busca densa (embeddings vetoriais) e busca esparsa (BM25) para maximizar a precisão do resultado.

Re-ranker. Reordena os fragmentos recuperados por relevância antes de passá-los ao gerador, filtrando ruído e priorizando os mais pertinentes para a consulta específica.

Gerador (generator). Recebe a consulta original mais os fragmentos recuperados e produz a resposta final, ancorada no contexto externo em vez de basear-se exclusivamente em seu conhecimento paramétrico.

Por que importa em 2026

RAG é a resposta técnica dominante ao problema da alucinação. Ao condicionar a geração em fragmentos de texto verificáveis, o modelo tem menos margem para inventar dados. Um estudo amplo publicado na MDPI (2025) sobre estratégias de mitigação de alucinações identificou RAG como a técnica com maior adoção em produção.

Para os motores de busca generativos (Google AI Mode, Perplexity, ChatGPT Search), RAG é a base sobre a qual se constroem as respostas com citações. Quando um motor cita uma fonte em sua resposta, na maioria dos casos o faz porque seu sistema RAG recuperou um fragmento dessa fonte e o gerador o usou como contexto. Isso implica que a citabilidade de uma fonte depende em grande parte de o seu conteúdo superar os filtros de relevância e qualidade do recuperador do motor.

A segunda consequência prática para empresas do setor de casa e construção é o RAG corporativo: a implementação de RAG sobre bases de conhecimento internas (catálogos, manuais técnicos, FAQs de produto) para criar agentes de IA que respondam com precisão sem alucinar dados da empresa.

Como funciona

O fluxo padrão do RAG segue estas etapas:

  1. A consulta do usuário chega ao sistema.
  2. O recuperador codifica a consulta como vetor e busca os fragmentos mais similares no índice vetorial.
  3. Os fragmentos recuperados (top-k, tipicamente entre 3 e 10) passam por um re-ranker que os reordena por relevância.
  4. Os fragmentos selecionados são concatenados com a consulta original e enviados ao LLM como contexto.
  5. O LLM gera a resposta condicionada nesse contexto, citando as fontes quando o sistema o requer.

As variantes avançadas incluem RAG iterativo (o resultado de cada etapa de geração orienta uma nova busca), RAG híbrido (combina recuperação densa e esparsa) e RAG agêntico (o próprio agente decide quando e o que recuperar de acordo com o estado do raciocínio).

Diferença com outras estratégias de atualização de conhecimento

EstratégiaComo atualiza o conhecimentoCustoLatência adicionada
RAGRecupera contexto externo na inferênciaBaixoModerada
Fine-tuningTreina o modelo com dados novosAltoNenhuma em produção
Prompt engineeringInclui o contexto diretamente no promptNenhumNenhuma
RAG + fine-tuningCombina recuperação e treinamentoMuito altoModerada

RAG é a opção preferida quando o conhecimento muda com frequência (preços, regulamentação, estoque) porque não exige retreinar o modelo. O fine-tuning é mais adequado para adaptar o estilo ou o domínio linguístico do modelo, não para injetar fatos atualizáveis. O prompt engineering só é viável quando o contexto relevante é breve e conhecido de antemão.

Termos relacionados

Alucinação LLM, Citabilidade LLM, Share of Voice IA.

Fuentes

Términos relacionados

  • hallucination-llm
  • citabilidade-llm
  • share-of-voice-ia