DefinedTerm · Glossário

O que é RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation, em português Geração Aumentada por Recuperação) é uma arquitetura que combina um modelo de linguagem generativo com um módulo de recuperação de informação externo. Em vez de responder apenas a partir de seu conhecimento paramétrico, o modelo recupera fragmentos relevantes de uma base de conhecimento externa no momento da inferência e os usa como contexto para gerar a resposta. RAG é a estratégia técnica mais adotada para reduzir alucinações e manter atualizado o conhecimento de um LLM sem necessidade de retreiná-lo.

edu-lopez-paradaPublicado 27 de maio de 2026Actualizado 27 de maio de 2026

Definição ampliada

RAG (Retrieval-Augmented Generation, em português Geração Aumentada por Recuperação) é um paradigma que estende a capacidade de um modelo de linguagem grande (LLM) conectando-o a uma base de conhecimento externa consultável em tempo de inferência. O conceito foi introduzido formalmente por Lewis et al. em 2020 e se consolidou como o padrão de fato para sistemas de resposta a perguntas, agentes de IA e motores de busca generativos.

A arquitetura básica do RAG tem três componentes:

Recuperador (retriever). Recebe a consulta do usuário e busca na base de conhecimento indexada os fragmentos de texto mais relevantes. Os recuperadores modernos combinam busca densa (embeddings vetoriais) e busca esparsa (BM25) para maximizar a precisão do resultado.

Re-ranker. Reordena os fragmentos recuperados por relevância antes de passá-los ao gerador, filtrando ruído e priorizando os mais pertinentes para a consulta específica.

Gerador (generator). Recebe a consulta original mais os fragmentos recuperados e produz a resposta final, ancorada no contexto externo em vez de basear-se exclusivamente em seu conhecimento paramétrico.

Por que importa em 2026

RAG é a resposta técnica dominante ao problema da alucinação. Ao condicionar a geração em fragmentos de texto verificáveis, o modelo tem menos margem para inventar dados. Um estudo amplo publicado na MDPI (2025) sobre estratégias de mitigação de alucinações identificou RAG como a técnica com maior adoção em produção.

Para os motores de busca generativos (Google AI Mode, Perplexity, ChatGPT Search), RAG é a base sobre a qual se constroem as respostas com citações. Quando um motor cita uma fonte em sua resposta, na maioria dos casos o faz porque seu sistema RAG recuperou um fragmento dessa fonte e o gerador o usou como contexto. Isso implica que a citabilidade de uma fonte depende em grande parte de o seu conteúdo superar os filtros de relevância e qualidade do recuperador do motor.

A segunda consequência prática para empresas do setor de casa e construção é o RAG corporativo: a implementação de RAG sobre bases de conhecimento internas (catálogos, manuais técnicos, FAQs de produto) para criar agentes de IA que respondam com precisão sem alucinar dados da empresa.

Como funciona

O fluxo padrão do RAG segue estas etapas:

A consulta do usuário chega ao sistema.
O recuperador codifica a consulta como vetor e busca os fragmentos mais similares no índice vetorial.
Os fragmentos recuperados (top-k, tipicamente entre 3 e 10) passam por um re-ranker que os reordena por relevância.
Os fragmentos selecionados são concatenados com a consulta original e enviados ao LLM como contexto.
O LLM gera a resposta condicionada nesse contexto, citando as fontes quando o sistema o requer.

As variantes avançadas incluem RAG iterativo (o resultado de cada etapa de geração orienta uma nova busca), RAG híbrido (combina recuperação densa e esparsa) e RAG agêntico (o próprio agente decide quando e o que recuperar de acordo com o estado do raciocínio).

Diferença com outras estratégias de atualização de conhecimento

Estratégia	Como atualiza o conhecimento	Custo	Latência adicionada
RAG	Recupera contexto externo na inferência	Baixo	Moderada
Fine-tuning	Treina o modelo com dados novos	Alto	Nenhuma em produção
Prompt engineering	Inclui o contexto diretamente no prompt	Nenhum	Nenhuma
RAG + fine-tuning	Combina recuperação e treinamento	Muito alto	Moderada

RAG é a opção preferida quando o conhecimento muda com frequência (preços, regulamentação, estoque) porque não exige retreinar o modelo. O fine-tuning é mais adequado para adaptar o estilo ou o domínio linguístico do modelo, não para injetar fatos atualizáveis. O prompt engineering só é viável quando o contexto relevante é breve e conhecido de antemão.

O que é RAG (Retrieval-Augmented Generation)

Definição ampliada

Por que importa em 2026

Como funciona

Diferença com outras estratégias de atualização de conhecimento

Termos relacionados

Fuentes

Términos relacionados