DefinedTerm · Glossário
O que é ai.txt
ai.txt é uma linguagem de domínio específico (DSL) proposta em maio de 2025 por Yuekang Li et al. (arXiv:2505.07834) que permite aos proprietários de sites regular com granularidade de elemento as interações de agentes e modelos de IA com seu conteúdo. Amplia o robots.txt com instruções em linguagem natural e geração automática de um XML de conformidade, distinguindo entre o que o modelo pode ler e o que pode executar.
Definição ampliada
ai.txt é um arquivo de texto estruturado, posicionado na raiz do domínio, que define regras de comportamento para agentes de inteligência artificial. Sua sintaxe é deliberadamente semelhante à do robots.txt para garantir legibilidade humana, mas expande o modelo de controle baseado em caminhos de URL para uma regulação no nível do elemento: um proprietário pode permitir que um modelo leia o corpo de um artigo mas proibir a extração de tabelas de preços, ou autorizar indexação de texto enquanto veda a geração de imagens derivadas dos ativos do site.
O padrão proposto por Yuekang Li e colaboradores (arXiv:2505.07834, maio 2025) prevê dois mecanismos de conformidade: um arquivo XML gerado automaticamente que os agentes programáticos podem consultar, e um bloco de instruções em linguagem natural que é injetado como system prompt nos modelos que suportam esse recurso.
A motivação técnica parte de um deficit documentado: robots.txt controla apenas o acesso por rota e não possui semântica sobre que ações o agente pode realizar uma vez dentro da página. Um estudo empírico publicado simultaneamente (arXiv:2505.21733) confirma que os scrapers de IA descumprem o robots.txt com maior frequência do que os crawlers de busca tradicionais.
Por que importa em 2026
Com a proliferação de agentes autônomos que navegam a web para resolver tarefas complexas — comparação de preços, agendamentos, pesquisa em múltiplos passos —, a granularidade de controle torna-se um requisito legal e de negócio. A distinção entre "o modelo pode ler" e "o modelo pode agir" não existia nem no robots.txt nem no llms.txt.
Em setores onde preços, cronogramas de obra e dados técnicos de produto são ativos comerciais sensíveis, o ai.txt oferece uma camada de governança específica: não apenas orienta qual conteúdo citar, mas quais ações estão expressamente vedadas aos agentes.
Como funciona
- Criar o arquivo
ai.txtna raiz do domínio (no mesmo nível que o robots.txt). - Declarar regras por tipo de agente com a diretiva
Agent:. - Especificar permissões com
Allow:eDisallow:no nível de seletor de elemento, não apenas de rota URL. - Adicionar um bloco
NaturalLanguage:com instruções interpretáveis diretamente por LLMs. - Publicar o XML de conformidade em
/ai-manifest.xmlpara agentes programáticos. - Verificar que o servidor entrega o arquivo com
Content-Type: text/plain.
Diferença com robots.txt e llms.txt
| Arquivo | Controla | Granularidade | Mecanismo | Estado em 2026 |
|---|---|---|---|---|
| robots.txt | Acesso de crawlers por rota | Nível de URL | Diretivas Allow/Disallow | Padrão maduro (RFC 9309) |
| llms.txt | Índice de conteúdo preferido para LLMs | Nível de página | Markdown estruturado | Adoção emergente, rastreamento não confirmado |
| ai.txt | Ações de agentes de IA sobre elementos | Nível de elemento | DSL + XML + prompt em linguagem natural | Proposta acadêmica, adoção incipiente |
Termos relacionados
llms.txt, AEO (Answer Engine Optimization), GEO (Generative Engine Optimization).
Fuentes
Términos relacionados
- llms-txt
- aeo-answer-engine-optimization
- geo-generative-engine-optimization