Saltar al contenido
Made For Builders iconoMade For Builders
Visibilidad

Cómo citan las IAs generativas

edu-lopez-parada11 min de lectura
Cómo citan las IAs generativas

La investigación académica sobre motores generativos — especialmente el paper GEO (arXiv 2311.09735, KDD 2024) y el trabajo seminal de Lewis et al. sobre RAG (arXiv 2005.11401, NeurIPS 2020) — demuestra que las IAs seleccionan fuentes por relevancia semántica, densidad de datos verificables y señales de autoridad. Incluir citas, estadísticas y citas textuales puede aumentar la visibilidad en respuestas generativas hasta un 40 %. La alucinación de referencias es un problema documentado: estudios muestran que más del 80 % de las citas generadas sin RAG no existen. Para empresas locales, el camino práctico es contenido estructurado, citable y respaldado por datos reales.

Cuando ChatGPT responde una pregunta sobre reformas de baño, cuando Perplexity sintetiza qué empresa de fontanería recomienda en Madrid, o cuando Google AI Overviews describe cómo elegir un instalador de climatización, lo hace citando fuentes. Pero, ¿cómo elige esas fuentes? Y sobre todo, ¿qué dice la investigación científica — no la opinión de un consultor — sobre ese proceso?

Este artículo resume los hallazgos de los papers académicos más relevantes sobre recuperación, citación y alucinación en LLMs, y los traduce en implicaciones concretas para empresas del sector hogar y construcción.


El mecanismo base: cómo funciona RAG

La mayoría de los motores generativos actuales — Perplexity, Bing Chat, Google AI Overviews, ChatGPT con búsqueda activada — utilizan una arquitectura llamada RAG (Retrieval-Augmented Generation).

El paper fundacional fue publicado por Patrick Lewis et al. (Facebook AI Research, NeurIPS 2020) bajo el título "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks".

Qué demostró el paper de Lewis et al.

Los investigadores combinaron dos componentes:

  • Memoria paramétrica: los pesos del modelo, lo que aprendió durante el preentrenamiento.
  • Memoria no paramétrica: un índice denso de documentos externos (en el paper original, Wikipedia), recuperados en tiempo real mediante un sistema de búsqueda neural.

El resultado fue claro: los modelos RAG generan respuestas más específicas, diversas y fácticas que los modelos puramente paramétricos en tareas que requieren conocimiento externo actualizado.

Este hallazgo tiene una consecuencia directa para cualquier empresa: si tu contenido no es recuperado en ese paso de indexación y retrieval, el modelo no puede citarte. No importa lo bien escrito que esté tu texto si el sistema de búsqueda semántica no lo encuentra relevante para la consulta del usuario.

El proceso de recuperación en tres pasos

El flujo básico de un sistema RAG es el siguiente:

  1. El usuario hace una consulta en lenguaje natural.
  2. El sistema recupera los N fragmentos más relevantes del índice externo.
  3. El LLM genera la respuesta usando esos fragmentos como contexto de entrada.

Las plataformas modernas aplican variantes de este esquema. Lo que cambia entre ellas es cómo ponderan la relevancia en el paso 2: algunos sistemas priorizan coincidencia semántica vectorial, otros combinan ranking de búsqueda orgánica con relevancia neural. En todos los casos, el contenido bien estructurado y semánticamente claro tiene ventaja sistemática.

Mano robótica interactuando con una red digital, simbolizando la arquitectura de inteligencia artificial generativa
La arquitectura RAG conecta la memoria del modelo con índices externos de documentos recuperados en tiempo real.

Que mejora la visibilidad: el paper GEO

El avance más importante en la comprensión de cómo optimizar contenido para motores generativos proviene del paper "GEO: Generative Engine Optimization" de Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan y Ameet Deshpande (IIT Delhi y Princeton University).

Publicado en arXiv en noviembre de 2023 (arXiv:2311.09735) y presentado en ACM SIGKDD 2024 en Barcelona (DOI: 10.1145/3637528.3671900), este trabajo es el primero en formalizar GEO como disciplina y en medirla experimentalmente con un benchmark reproducible.

La metodología del paper GEO

Los autores construyeron GEO-bench, un banco de evaluación con 10.000 consultas de dominios variados — ciencia, economía, salud, tecnología, cultura — junto con fuentes web relevantes para cada consulta. Evaluaron nueve estrategias de optimización de contenido midiendo dos métricas:

  • Position-Adjusted Word Count (PAWC): cuántas palabras del contenido aparecen en la respuesta del motor generativo, ponderadas por su posición en la respuesta.
  • Subjective Impression Score: evaluación cualitativa de la relevancia percibida del contenido en la respuesta final.

Las estrategias se probaron sobre Perplexity.ai como motor generativo real con millones de usuarios activos.

Los resultados: qué funciona y qué no

Táctica GEOMejora en visibilidadEvidencia
Citar fuentes externas (Cite Sources)+30-40 % en PAWCGEO-bench, 10.000 consultas
Añadir estadísticas verificables+30-40 % en PAWCGEO-bench, 10.000 consultas
Incorporar citas textuales de expertos+15-30 % en ImpressionGEO-bench, 10.000 consultas
Simplificar el lenguajeEfecto menorGEO-bench
Añadir palabras clave en textoEfecto menor o nuloGEO-bench
Estructura fluida sin datos verificablesSin mejora significativaGEO-bench

El hallazgo central del paper: las tácticas que señalan credibilidad de forma explícita — datos con fuente, cifras con contexto, citas de expertos reconocibles — son las que más aumentan la probabilidad de ser incluido en la respuesta generada. El contenido "bien escrito" pero vago no tiene ventaja sobre el contenido conciso con datos.

Los autores verificaron estos resultados directamente en Perplexity.ai, obteniendo mejoras de visibilidad de hasta el 37 % con las mismas estrategias aplicadas al motor en producción.

Por qué la efectividad varía por dominio

Uno de los hallazgos secundarios del paper GEO es que la efectividad de cada táctica no es uniforme entre dominios. En consultas médicas o legales, la atribución a fuentes oficiales pesa proporcionalmente más. En consultas comerciales o locales, los datos de contexto geográfico y sectorial ganan relevancia. Esto implica que una empresa de fontanería en Valencia necesita una estrategia ligeramente distinta a una empresa de reformas de ámbito nacional: los datos de precios locales, las normativas autonómicas y las referencias a organismos regionales son especialmente valiosos en ese contexto.

Esta variación por dominio es una de las razones por las que los autores publicaron GEO-bench como recurso abierto: para que investigadores posteriores puedan analizar segmentos específicos con mayor granularidad.

Servidor de datos con múltiples cables de red, representando la infraestructura de indexación y recuperación de información
Los motores generativos recuperan fragmentos de un índice externo antes de sintetizar cada respuesta.

El problema de la alucinación de citas

Antes de que RAG fuera la arquitectura dominante, los LLMs generaban citas directamente desde sus pesos — sin recuperar ningún documento externo. Los resultados fueron problemáticos y están bien documentados en la literatura académica.

Lo que encontraron los investigadores

Una encuesta sistemática sobre atribución en LLMs, "A Survey of Large Language Models Attribution" (arXiv:2311.03731, HITsz-TMG), analizó los mecanismos de atribución empleados por los sistemas generativos de dominio abierto. Entre sus hallazgos más citados:

  • Solo el 51,5 % del contenido generado por motores como Bing Chat está completamente respaldado por las referencias que citan.
  • En campos de alto riesgo como medicina y derecho, el porcentaje de atribuciones incompletas alcanza el 35 % y el 31 % respectivamente.
  • El 51 % de las fuentes citadas en contextos profesionales fueron evaluadas como poco fiables por expertos del área.

Un segundo estudio — "ChatGPT Hallucinates when Attributing Answers" — analizó 160 preguntas especializadas instruyendo a ChatGPT para proporcionar respuestas con referencias de soporte. Los resultados fueron llamativos:

  • El 86 % de las referencias generadas no existía.
  • De las que existían (14 %), el 78 % no respaldaba la afirmación para la que se había citado.
  • La mayoría de las referencias existentes eran páginas de Wikipedia — lo que sugiere que el modelo genera citas "plausibles" desde patrones de entrenamiento, no desde recuperación real.

Qué implica esto para la arquitectura de los motores actuales

Estos datos no describen el comportamiento de ChatGPT con búsqueda web activada o de Perplexity — ambos usan RAG en sus modos de respuesta con fuentes. Describen el comportamiento de modelos puramente paramétricos que generan citas desde memoria de entrenamiento. La diferencia es crítica:

  • Con RAG activo: el motor recupera tu contenido y lo cita porque lo ha procesado en ese momento específico.
  • Sin RAG: el modelo "imagina" referencias que suenan plausibles, produciendo alucinaciones que pueden incluir autores, títulos y URLs que no existen.

La implicación práctica es directa: necesitas que tu contenido sea indexable y recuperable por los sistemas de búsqueda que alimentan a los motores generativos. Si el contenido no llega al paso de retrieval, el modelo podrá mencionar tu sector en términos generales pero nunca citará tu dominio específico con datos reales.

Estanterías de una biblioteca pública con miles de libros ordenados, evocando la base de conocimiento que los LLMs aprenden durante el preentrenamiento
Los modelos puramente paramétricos generan citas desde patrones aprendidos en preentrenamiento, sin recuperar ningún documento real.

Qué señales de autoridad leen los motores generativos

Los papers de GEO y RAG, combinados con la literatura sobre atribución en LLMs, permiten construir un mapa estructurado de las señales que favorecen la recuperación y cita.

Señales documentales (dentro de la página)

  • Datos numéricos con fuente atribuida: cifras verificables aumentan la probabilidad de inclusión en la respuesta según GEO-bench.
  • Citas textuales de expertos o estudios: fragmentos atribuibles activan patrones de credibilidad en el proceso de ranking del retriever.
  • Fragmentos autocontenidos: párrafos que responden una pregunta completa sin necesidad de contexto adicional son más fáciles de recuperar y citar de forma precisa.
  • Estructura HTML semántica: H2/H3 bien jerarquizados, listas ordenadas, tablas — facilitan el parseo por los crawlers de indexación que alimentan el índice de los motores generativos.

Señales externas (fuera de la página)

  • Menciones en medios y directorios sectoriales: los LLMs con RAG usan señales de búsqueda orgánica como proxy de autoridad. Si tu empresa aparece en directorios reconocidos, medios locales y foros especializados, aumenta la probabilidad de recuperación.
  • Schema markup correctamente implementado: aunque los crawlers de IA no consumen JSON-LD directamente, el schema mejora el posicionamiento orgánico — y los motores generativos recuperan principalmente de ese pool de páginas bien posicionadas.

Para entender en detalle cómo implementar estas señales, la guía de visibilidad en motores generativos desarrolla cada punto con ejemplos del sector.


Implicaciones prácticas para empresas del sector hogar

Traducir los hallazgos académicos a acciones concretas no es complejo. La investigación apunta consistentemente en la misma dirección: contenido citable es contenido con datos verificables, estructura clara y autoridad externa demostrable.

Del paper a la práctica: tabla de aplicación

Hallazgo académicoFuente verificadaAcción para empresa local
Citar fuentes aumenta visibilidad hasta +40 %GEO, KDD 2024 — arXiv:2311.09735Incluir datos con fuente en páginas de servicio (INE, IDAE, colegios profesionales)
RAG recupera fragmentos semánticamente relevantesLewis et al., NeurIPS 2020 — arXiv:2005.11401Escribir párrafos que respondan una pregunta específica en 40-80 palabras
El 86 % de citas sin RAG son alucinacionesarXiv 2309.09401No depender de que la IA te conozca de memoria: necesitas ser indexable
La efectividad GEO varía por dominioGEO, KDD 2024Incluir datos locales: precios en tu zona, normativa autonómica, cobertura geográfica
Schema markup correlaciona con citabilidadLiteratura GEO y SEOImplementar FAQPage, Article y Organization schema validados

Cinco acciones concretas para esta semana

  1. Revisa tus páginas de servicio: ¿responden en los primeros dos párrafos la pregunta que el usuario buscaría en Perplexity? ¿Incluyen datos de precio orientativos con fuente?

  2. Crea o mejora tu sección de preguntas frecuentes: cada FAQ debe ser autocontenida. La respuesta debe tener sentido fuera del contexto de la página, sin asumir que el lector ha leído el resto.

  3. Incluye al menos un dato verificable por página: porcentaje de ahorro energético certificado por el IDAE, estadística del sector del INE, normativa aplicable con número de referencia oficial.

  4. Construye autoridad externa: solicita fichas en directorios sectoriales reconocidos, busca menciones en medios locales, participa en foros donde tus clientes buscan recomendaciones de instaladores y empresas.

  5. Implementa schema markup correcto: como mínimo, Organization, LocalBusiness y FAQPage. Si publicas artículos, Article schema en cada entrada del blog.

Para ver cómo aplicar esto en detalle, consulta los artículos sobre cómo aparecer en ChatGPT y Perplexity si tienes una empresa local y sobre schema markup y datos estructurados para empresas del hogar.


Límites de la investigación actual

La honestidad intelectual exige señalar lo que los papers actuales no resuelven:

  • Caja negra parcial: los motores comerciales como ChatGPT y Google AI Overviews no publican sus algoritmos de retrieval. El paper GEO trabaja sobre Perplexity, cuyo mecanismo es más accesible que el de otros competidores. Los resultados son indicativos, no extrapolables con certeza a todos los sistemas.
  • Velocidad de cambio: los sistemas de IA se actualizan con frecuencia. Lo que funciona hoy puede pesar menos en seis meses si el motor cambia su pipeline de retrieval o sus métricas de relevancia.
  • Sesgo de dominio en GEO-bench: el benchmark incluye consultas de muchos dominios, pero el sector hogar tiene características específicas — intenciones de búsqueda locales, terminología técnica en español, alta estacionalidad — que no están sobre-representadas en las 10.000 consultas evaluadas.
  • Visibilidad no equivale a conversión: el paper GEO mide si el contenido aparece en la respuesta generada, no si esa aparición genera contactos o contratos. La cadena desde citabilidad hasta negocio requiere investigación adicional específica para empresas locales.

Dicho esto, la dirección general que señala la investigación es robusta y consistente entre distintos equipos, metodologías y plataformas: contenido estructurado, con datos verificables y autoridad externa demostrable, tiene sistemáticamente más probabilidades de ser recuperado y citado por los motores generativos.


Recursos para seguir profundizando

Preguntas frecuentes

Resolvemos dudas antes de empezar

Ayuda directa

¿Tu duda no está aquí?

Habla con el equipo
  1. Q/01¿Qué es RAG y por qué determina qué fuentes cita una IA?

    RAG (Retrieval-Augmented Generation) es la arquitectura descrita por Lewis et al. (2020) en la que un modelo generativo combina memoria paramétrica — lo que aprendió en preentrenamiento — con un índice externo de documentos que recupera en tiempo real. Cuando el usuario hace una pregunta, el sistema recupera fragmentos relevantes y se los entrega al LLM antes de generar la respuesta. Esto convierte la página web que contiene esa información en la fuente directa de la respuesta. Plataformas como Perplexity y Google AI Overviews operan con variantes de RAG: si tu contenido no es recuperado en ese paso, no puede ser citado.

  2. Q/02¿Qué tácticas mejoran la visibilidad en motores generativos según la investigación?

    El paper GEO (Aggarwal et al., 2024, KDD) evaluó nueve estrategias sobre 10.000 consultas. Las tres con mayor impacto fueron: incluir citas de fuentes externas (+40 % en Position-Adjusted Word Count), añadir estadísticas verificables (+30-40 %) e incorporar citas textuales de expertos (+15-30 %). Estrategias como simplificar el lenguaje o añadir palabras clave tuvieron efecto menor o nulo. El hallazgo principal: la credibilidad señalada explícitamente — datos, fuentes, cifras — es el factor que más pesa.

  3. Q/03¿Hasta qué punto alucinan las IAs cuando citan referencias?

    La investigación es contundente. Un estudio sobre ChatGPT con 160 preguntas especializadas encontró que el 86 % de las referencias generadas no existían. De las que existían (14 %), el 78 % no respaldaba la afirmación hecha por el modelo. Una encuesta sistemática sobre atribución en LLMs (arXiv 2311.03731) constata que motores como Bing Chat solo respaldan completamente el 51,5 % de su contenido citado. Estos datos subrayan que la alucinación no es anecdótica: es el comportamiento por defecto de los modelos sin RAG bien calibrado.

  4. Q/04¿Qué tipo de contenido hace que una empresa local sea citada por una IA?

    Según la convergencia de los papers de GEO y RAG, los elementos que más favorecen la recuperación y cita son: fragmentos autocontenidos que responden una pregunta específica en 40-80 palabras, datos numéricos con fuente verificable, lenguaje directo sin relleno, estructura HTML semántica (H2/H3, listas, tablas), schema markup FAQPage y Article, y autoridad externa medida por menciones en directorios y medios sectoriales. Para una empresa de reformas o fontanería, esto se traduce en páginas de servicio con precios orientativos, preguntas frecuentes bien estructuradas y fichas de proyecto reales.

  5. Q/05¿La investigación académica distingue entre SEO tradicional y GEO?

    Sí. El paper GEO (Aggarwal et al., KDD 2024) formaliza por primera vez la distinción entre optimizar para motores de búsqueda clásicos — donde el objetivo es el ranking de URLs — y optimizar para motores generativos, donde el objetivo es que el LLM incluya y cite el contenido en su respuesta sintetizada. Las métricas son distintas: en SEO se mide posición y CTR; en GEO se miden Position-Adjusted Word Count e Impression Score dentro de la respuesta generada. El paper introduce GEO-bench, un banco de evaluación con 10.000 consultas, para medir estas métricas de forma reproducible.

  6. Q/06¿Un LLM cita de su memoria de entrenamiento o de documentos recuperados?

    Depende de la arquitectura. Los modelos puramente paramétricos — GPT sin plugins, modelos offline — generan respuestas desde los pesos aprendidos en preentrenamiento, lo que explica la alta tasa de alucinación de referencias (86 % en algunos estudios). Los modelos con RAG — Perplexity, Bing Chat, Google AI Overviews, ChatGPT con búsqueda activada — recuperan documentos en tiempo real y los usan como contexto. Lewis et al. (2020) demostraron que RAG produce respuestas más específicas, diversas y fácticas que los modelos puramente paramétricos en tareas de conocimiento intensivo.