DefinedTerm · Glossário
O que é RAG (Retrieval-Augmented Generation)
RAG (Retrieval-Augmented Generation, em português Geração Aumentada por Recuperação) é uma arquitetura que combina um modelo de linguagem generativo com um módulo de recuperação de informação externo. Em vez de responder apenas a partir de seu conhecimento paramétrico, o modelo recupera fragmentos relevantes de uma base de conhecimento externa no momento da inferência e os usa como contexto para gerar a resposta. RAG é a estratégia técnica mais adotada para reduzir alucinações e manter atualizado o conhecimento de um LLM sem necessidade de retreiná-lo.
Definição ampliada
RAG (Retrieval-Augmented Generation, em português Geração Aumentada por Recuperação) é um paradigma que estende a capacidade de um modelo de linguagem grande (LLM) conectando-o a uma base de conhecimento externa consultável em tempo de inferência. O conceito foi introduzido formalmente por Lewis et al. em 2020 e se consolidou como o padrão de fato para sistemas de resposta a perguntas, agentes de IA e motores de busca generativos.
A arquitetura básica do RAG tem três componentes:
Recuperador (retriever). Recebe a consulta do usuário e busca na base de conhecimento indexada os fragmentos de texto mais relevantes. Os recuperadores modernos combinam busca densa (embeddings vetoriais) e busca esparsa (BM25) para maximizar a precisão do resultado.
Re-ranker. Reordena os fragmentos recuperados por relevância antes de passá-los ao gerador, filtrando ruído e priorizando os mais pertinentes para a consulta específica.
Gerador (generator). Recebe a consulta original mais os fragmentos recuperados e produz a resposta final, ancorada no contexto externo em vez de basear-se exclusivamente em seu conhecimento paramétrico.
Por que importa em 2026
RAG é a resposta técnica dominante ao problema da alucinação. Ao condicionar a geração em fragmentos de texto verificáveis, o modelo tem menos margem para inventar dados. Um estudo amplo publicado na MDPI (2025) sobre estratégias de mitigação de alucinações identificou RAG como a técnica com maior adoção em produção.
Para os motores de busca generativos (Google AI Mode, Perplexity, ChatGPT Search), RAG é a base sobre a qual se constroem as respostas com citações. Quando um motor cita uma fonte em sua resposta, na maioria dos casos o faz porque seu sistema RAG recuperou um fragmento dessa fonte e o gerador o usou como contexto. Isso implica que a citabilidade de uma fonte depende em grande parte de o seu conteúdo superar os filtros de relevância e qualidade do recuperador do motor.
A segunda consequência prática para empresas do setor de casa e construção é o RAG corporativo: a implementação de RAG sobre bases de conhecimento internas (catálogos, manuais técnicos, FAQs de produto) para criar agentes de IA que respondam com precisão sem alucinar dados da empresa.
Como funciona
O fluxo padrão do RAG segue estas etapas:
- A consulta do usuário chega ao sistema.
- O recuperador codifica a consulta como vetor e busca os fragmentos mais similares no índice vetorial.
- Os fragmentos recuperados (top-k, tipicamente entre 3 e 10) passam por um re-ranker que os reordena por relevância.
- Os fragmentos selecionados são concatenados com a consulta original e enviados ao LLM como contexto.
- O LLM gera a resposta condicionada nesse contexto, citando as fontes quando o sistema o requer.
As variantes avançadas incluem RAG iterativo (o resultado de cada etapa de geração orienta uma nova busca), RAG híbrido (combina recuperação densa e esparsa) e RAG agêntico (o próprio agente decide quando e o que recuperar de acordo com o estado do raciocínio).
Diferença com outras estratégias de atualização de conhecimento
| Estratégia | Como atualiza o conhecimento | Custo | Latência adicionada |
|---|---|---|---|
| RAG | Recupera contexto externo na inferência | Baixo | Moderada |
| Fine-tuning | Treina o modelo com dados novos | Alto | Nenhuma em produção |
| Prompt engineering | Inclui o contexto diretamente no prompt | Nenhum | Nenhuma |
| RAG + fine-tuning | Combina recuperação e treinamento | Muito alto | Moderada |
RAG é a opção preferida quando o conhecimento muda com frequência (preços, regulamentação, estoque) porque não exige retreinar o modelo. O fine-tuning é mais adequado para adaptar o estilo ou o domínio linguístico do modelo, não para injetar fatos atualizáveis. O prompt engineering só é viável quando o contexto relevante é breve e conhecido de antemão.
Termos relacionados
Alucinação LLM, Citabilidade LLM, Share of Voice IA.
Fuentes
Términos relacionados
- hallucination-llm
- citabilidade-llm
- share-of-voice-ia