Saltar al contenido
Made For Builders iconoMade For Builders

DefinedTerm · Glosario

Qué es RAG (Retrieval-Augmented Generation)

RAG (Retrieval-Augmented Generation) es una arquitectura que combina un modelo de lenguaje generativo con un módulo de recuperación de información externo. En lugar de responder únicamente desde su conocimiento paramétrico, el modelo recupera fragmentos relevantes de una base de conocimiento externa en el momento de la inferencia y los usa como contexto para generar la respuesta. RAG es la estrategia técnica más adoptada para reducir alucinaciones y mantener actualizado el conocimiento de un LLM sin necesidad de reentrenarlo.

edu-lopez-paradaPublicado Actualizado

Definición ampliada

RAG (Retrieval-Augmented Generation, en español Generación Aumentada por Recuperación) es un paradigma que extiende la capacidad de un modelo de lenguaje grande (LLM) conectándolo a una base de conocimiento externa consultable en tiempo de inferencia. El concepto fue introducido formalmente por Lewis et al. en 2020 y se ha consolidado como el estándar de facto para sistemas de respuesta a preguntas, agentes de IA y motores de búsqueda generativos.

La arquitectura básica de RAG tiene tres componentes:

Recuperador (retriever). Recibe la consulta del usuario y busca en una base de conocimiento indexada los fragmentos de texto más relevantes. Los recuperadores modernos combinan búsqueda densa (embeddings vectoriales) y búsqueda dispersa (BM25) para maximizar la precisión del resultado.

Re-ranker. Reordena los fragmentos recuperados por relevancia antes de pasarlos al generador, filtrando ruido y priorizando los más pertinentes para la consulta específica.

Generador (generator). Recibe la consulta original más los fragmentos recuperados y produce la respuesta final, anclada en el contexto externo en lugar de basarse exclusivamente en su conocimiento paramétrico.

Por qué importa en 2026

RAG es la respuesta técnica dominante al problema de la alucinación. Al condicionar la generación en fragmentos de texto verificables, el modelo tiene menos margen para inventar datos. Un estudio amplio publicado en MDPI (2025) sobre estrategias de mitigación de alucinaciones identificó RAG como la técnica con mayor adopción en producción.

Para los motores de búsqueda generativos (Google AI Mode, Perplexity, ChatGPT Search), RAG es la base sobre la que se construyen las respuestas con citas. Cuando un motor cita una fuente en su respuesta, en la mayoría de los casos lo hace porque su sistema RAG recuperó un fragmento de esa fuente y el generador lo usó como contexto. Esto implica que la citabilidad de una fuente depende en gran parte de si su contenido supera los filtros de relevancia y calidad del recuperador del motor.

La segunda consecuencia práctica para empresas del sector hogar y construcción es el RAG corporativo: la implementación de RAG sobre bases de conocimiento internas (catálogos, manuales técnicos, FAQs de producto) para crear agentes de IA que respondan con precisión sin alucinar datos de la empresa.

Cómo funciona

El flujo estándar de RAG sigue estos pasos:

  1. La consulta del usuario llega al sistema.
  2. El recuperador codifica la consulta como vector y busca los fragmentos más similares en el índice vectorial.
  3. Los fragmentos recuperados (top-k, típicamente entre 3 y 10) pasan por un re-ranker que los reordena por relevancia.
  4. Los fragmentos seleccionados se concatenan con la consulta original y se envían al LLM como contexto.
  5. El LLM genera la respuesta condicionada en ese contexto, citando las fuentes cuando el sistema lo requiere.

Las variantes avanzadas incluyen RAG iterativo (el resultado de cada paso de generación guía una nueva búsqueda), RAG híbrido (combina recuperación densa y dispersa), y RAG agentico (el propio agente decide cuándo y qué recuperar según el estado del razonamiento).

Diferencia con otras estrategias de actualización de conocimiento

EstrategiaCómo actualiza el conocimientoCosteLatencia añadida
RAGRecupera contexto externo en inferenciaBajoModerada
Fine-tuningEntrena el modelo con datos nuevosAltoNinguna en producción
Prompt engineeringIncluye el contexto directamente en el promptNingunoNinguna
RAG + fine-tuningCombina recuperación y entrenamientoMuy altoModerada

RAG es la opción preferida cuando el conocimiento cambia frecuentemente (precios, normativa, inventario) porque no requiere reentrenar el modelo. El fine-tuning es más adecuado para adaptar el estilo o el dominio lingüístico del modelo, no para inyectar hechos actualizables. El prompt engineering solo es viable cuando el contexto relevante es breve y conocido de antemano.

Términos relacionados

Alucinación LLM, Citabilidad LLM, Fan-out query.

Fuentes

Términos relacionados

  • hallucination-llm
  • citabilidad-llm
  • fan-out-query