Saltar al contenido
Made For Builders iconoMade For Builders

DefinedTerm · Glosario

Qué es ai.txt

ai.txt es un archivo de lenguaje específico de dominio (DSL) propuesto en mayo 2025 por Yuekang Li et al. (arXiv:2505.07834) que permite a los propietarios de sitios web regular con granularidad element-nivel las interacciones de agentes y modelos de IA con su contenido, ampliando las capacidades de robots.txt mediante instrucciones en lenguaje natural y generación automática de XML de cumplimiento.

edu-lopez-paradaPublicado Actualizado

Definición ampliada

ai.txt es un archivo de texto estructurado, ubicado en la raíz de un dominio, que define reglas de comportamiento para agentes de inteligencia artificial. Su sintaxis es deliberadamente similar a robots.txt para garantizar legibilidad humana, pero amplía el modelo de control basado en rutas URL hacia una regulación a nivel de elemento: un propietario puede permitir que un modelo lea el cuerpo de un artículo pero no extraiga tablas de precios, o puede autorizar indexación de texto a la vez que prohíbe generación de imágenes derivadas de los activos del sitio.

El estándar propuesto por Yuekang Li y colaboradores (arXiv:2505.07834, mayo 2025) contempla dos mecanismos de cumplimiento: un archivo XML generado automáticamente que los agentes programáticos pueden leer, y un bloque de instrucciones en lenguaje natural que se inyecta como system prompt para los modelos que lo soporten.

La motivación técnica parte de un déficit documentado: robots.txt solo controla acceso por ruta y no tiene semántica sobre qué acciones puede realizar el agente una vez dentro de la página. Un estudio empírico publicado simultáneamente (arXiv:2505.21733) confirma que los scrapers de IA incumplen robots.txt con mayor frecuencia que los crawlers de búsqueda tradicionales.

Por qué importa en 2026

Con la proliferación de agentes autónomos que navegan la web para resolver tareas complejas (comparación de precios, reservas, investigación multi-paso), la granularidad de control se convierte en requisito legal y de negocio. La distinción entre "el modelo puede leer" y "el modelo puede actuar" no existía en robots.txt ni en llms.txt.

En sectores donde los precios, los calendarios de obra y los datos técnicos de producto son activos comerciales sensibles, ai.txt ofrece una capa de gobernanza específica: no solo orienta qué contenido citar, sino qué acciones están expresamente prohibidas para los agentes.

Cómo se implementa ai.txt

  1. Crear el archivo ai.txt en la raíz del dominio (al mismo nivel que robots.txt).
  2. Declarar reglas por tipo de agente con la directiva Agent:.
  3. Especificar permisos con Allow: y Disallow: a nivel de selector de elemento, no solo de ruta URL.
  4. Añadir un bloque NaturalLanguage: con instrucciones interpretables directamente por LLMs.
  5. Publicar el XML de cumplimiento en /ai-manifest.xml para agentes programáticos.
  6. Verificar que el servidor sirve el archivo con Content-Type: text/plain.

Diferencia con robots.txt y llms.txt

ArchivoControlaGranularidadMecanismoEstado en 2026
robots.txtAcceso de crawlers por rutaURL-nivelDirectivas Allow/DisallowEstándar maduro (RFC 9309)
llms.txtÍndice de contenido preferido para LLMsPágina-nivelMarkdown estructuradoAdopción emergente, rastreo no confirmado
ai.txtAcciones de agentes de IA sobre elementosElemento-nivelDSL + XML + NL promptPropuesta académica, adopción incipiente

Términos relacionados

llms.txt, AEO, GEO.

Fuentes

Términos relacionados

  • llms-txt
  • aeo-answer-engine-optimization
  • geo-generative-engine-optimization