DefinedTerm · Glosario
Qué es ai.txt
ai.txt es un archivo de lenguaje específico de dominio (DSL) propuesto en mayo 2025 por Yuekang Li et al. (arXiv:2505.07834) que permite a los propietarios de sitios web regular con granularidad element-nivel las interacciones de agentes y modelos de IA con su contenido, ampliando las capacidades de robots.txt mediante instrucciones en lenguaje natural y generación automática de XML de cumplimiento.
Definición ampliada
ai.txt es un archivo de texto estructurado, ubicado en la raíz de un dominio, que define reglas de comportamiento para agentes de inteligencia artificial. Su sintaxis es deliberadamente similar a robots.txt para garantizar legibilidad humana, pero amplía el modelo de control basado en rutas URL hacia una regulación a nivel de elemento: un propietario puede permitir que un modelo lea el cuerpo de un artículo pero no extraiga tablas de precios, o puede autorizar indexación de texto a la vez que prohíbe generación de imágenes derivadas de los activos del sitio.
El estándar propuesto por Yuekang Li y colaboradores (arXiv:2505.07834, mayo 2025) contempla dos mecanismos de cumplimiento: un archivo XML generado automáticamente que los agentes programáticos pueden leer, y un bloque de instrucciones en lenguaje natural que se inyecta como system prompt para los modelos que lo soporten.
La motivación técnica parte de un déficit documentado: robots.txt solo controla acceso por ruta y no tiene semántica sobre qué acciones puede realizar el agente una vez dentro de la página. Un estudio empírico publicado simultáneamente (arXiv:2505.21733) confirma que los scrapers de IA incumplen robots.txt con mayor frecuencia que los crawlers de búsqueda tradicionales.
Por qué importa en 2026
Con la proliferación de agentes autónomos que navegan la web para resolver tareas complejas (comparación de precios, reservas, investigación multi-paso), la granularidad de control se convierte en requisito legal y de negocio. La distinción entre "el modelo puede leer" y "el modelo puede actuar" no existía en robots.txt ni en llms.txt.
En sectores donde los precios, los calendarios de obra y los datos técnicos de producto son activos comerciales sensibles, ai.txt ofrece una capa de gobernanza específica: no solo orienta qué contenido citar, sino qué acciones están expresamente prohibidas para los agentes.
Cómo se implementa ai.txt
- Crear el archivo
ai.txten la raíz del dominio (al mismo nivel que robots.txt). - Declarar reglas por tipo de agente con la directiva
Agent:. - Especificar permisos con
Allow:yDisallow:a nivel de selector de elemento, no solo de ruta URL. - Añadir un bloque
NaturalLanguage:con instrucciones interpretables directamente por LLMs. - Publicar el XML de cumplimiento en
/ai-manifest.xmlpara agentes programáticos. - Verificar que el servidor sirve el archivo con
Content-Type: text/plain.
Diferencia con robots.txt y llms.txt
| Archivo | Controla | Granularidad | Mecanismo | Estado en 2026 |
|---|---|---|---|---|
| robots.txt | Acceso de crawlers por ruta | URL-nivel | Directivas Allow/Disallow | Estándar maduro (RFC 9309) |
| llms.txt | Índice de contenido preferido para LLMs | Página-nivel | Markdown estructurado | Adopción emergente, rastreo no confirmado |
| ai.txt | Acciones de agentes de IA sobre elementos | Elemento-nivel | DSL + XML + NL prompt | Propuesta académica, adopción incipiente |
Términos relacionados
llms.txt, AEO, GEO.
Fuentes
Términos relacionados
- llms-txt
- aeo-answer-engine-optimization
- geo-generative-engine-optimization