Como as IAs generativas escolhem fontes

ChatGPT, Perplexity e o AI Overviews do Google não citam todas as páginas: selecionam algumas como fontes. Entender essa seleção é o que define se um prestador aparece ou desaparece nas respostas geradas por IA. O paper acadêmico que cunhou o termo GEO (Generative Engine Optimization), de Aggarwal et al., mostrou em experimentos que adicionar citações, estatísticas e linguagem de autoridade ao conteúdo aumentou a visibilidade nas respostas geradas. Este guia explica os mecanismos públicos de seleção de fontes e as táticas de GEO aplicáveis a serviços residenciais.
Quando alguém pergunta ao ChatGPT ou ao Perplexity "qual o melhor encanador para emergência em São Paulo" ou "quanto custa instalar ar-condicionado split", a resposta não lista todas as páginas existentes sobre o assunto. Ela seleciona algumas fontes, resume e — em sistemas como o Perplexity e o AI Overviews do Google — cita as páginas que sustentaram a resposta. Estar entre as fontes citadas ou ficar de fora é a nova fronteira da visibilidade.
Entender como essa seleção acontece deixou de ser curiosidade técnica. O paper acadêmico que cunhou o termo GEO (Generative Engine Optimization), de Aggarwal et al., arXiv:2311.09735, mostrou em experimentos controlados que certas escolhas de conteúdo — adicionar citações de fontes, estatísticas e linguagem de autoridade — aumentaram a visibilidade do conteúdo nas respostas geradas, em comparação com técnicas tradicionais de SEO por palavra-chave.
Este guia explica, com base em documentação pública e nesse paper, como os principais sistemas escolhem fontes, o que torna uma página citável e quais táticas de GEO um prestador de serviços residenciais pode aplicar — sem inventar atalhos mágicos, porque ainda há muito que os próprios fornecedores não revelam.
Como funciona a seleção de fontes
A maioria dos sistemas que citam fontes usa um padrão conhecido como RAG (retrieval-augmented generation, ou geração aumentada por recuperação). Em duas etapas:
- Recuperação. O sistema busca, em um índice, as páginas mais relevantes para a consulta.
- Geração com citação. O modelo gera a resposta a partir dessas páginas e cita as que sustentam o texto.
Isso tem uma consequência direta: para ser citado, você primeiro precisa ser recuperado. E a recuperação depende dos mesmos fundamentos da busca — relevância para a consulta, autoridade, frescor, rastreabilidade. Por isso GEO não substitui SEO; ele se apoia nele.
Os três sistemas mais relevantes para o público brasileiro:
- AI Overviews do Google usa o próprio índice do Google. A documentação do Google sobre recursos de IA explica como o conteúdo aparece nesses recursos.
- Perplexity declara publicamente que busca na web e cita as fontes que usou.
- ChatGPT com busca recupera resultados da web por meio de seus rastreadores, documentados pela OpenAI.

O que a pesquisa de GEO descobriu
O paper GEO: Generative Engine Optimization, de Aggarwal e colegas, propôs um benchmark e testou variações de conteúdo para medir o que aumenta a visibilidade nas respostas geradas. Os achados mais relevantes para prestadores:
- Citar fontes no conteúdo aumentou a visibilidade nas respostas geradas.
- Adicionar estatísticas relevantes teve efeito positivo.
- Linguagem de autoridade (citações, quotation) também ajudou.
- Técnicas tradicionais de keyword stuffing tiveram desempenho inferior nesse contexto.
Uma ressalva honesta e importante: o efeito variou conforme o domínio e o tipo de consulta, e o estudo foi feito com motores e conjuntos específicos. Não é uma fórmula universal garantida. Mas a leitura prática é sólida: conteúdo factual, bem fundamentado e com fontes é mais útil — e mais citável — para um sistema que precisa sustentar o que afirma.
Para uma introdução ao conceito, veja o que é GEO, otimização para motores generativos e como aparecer no ChatGPT e Perplexity.
O que torna uma página citável
Juntando os mecanismos públicos e os achados do paper, surge um perfil de página citável:
| Atributo | Por que ajuda a ser citado |
|---|---|
| Responde à pergunta de forma direta | A passagem pode ser usada quase como está |
| Cita fontes reais e verificáveis | Dá sustentação e sinaliza confiabilidade |
| Traz dados e números com fonte | Conteúdo factual é mais útil a uma resposta |
| Estrutura clara (H2, listas, FAQ) | Facilita extrair a passagem certa |
| É rastreável e tem autoridade | Condição para ser recuperado antes de citado |
| Tem schema correto | Torna o significado explícito a máquinas |
Repare como isso se alinha com boa redação e bom SEO. Não há truque: páginas que ajudam pessoas de verdade, com clareza e honestidade, são as mesmas que sistemas de IA tendem a citar. A cápsula-resposta no topo de cada artigo deste blog, por exemplo, existe justamente para ser citável verbatim.

Permitir os bots de IA: não se bloqueie da resposta
Um erro caro é bloquear os rastreadores de IA no robots.txt. Para aparecer em respostas com busca, em geral você precisa permitir o rastreamento. O Google usa seu índice para o AI Overviews; a OpenAI documenta seus rastreadores, incluindo o ligado à busca. Bloqueá-los tende a remover você dessas respostas.
No setor de serviços, isso é ainda mais crítico: bloquear bots de IA por medo equivale a desaparecer de um canal de descoberta em crescimento. A recomendação para quem quer visibilidade é permitir os bots legítimos, não bloqueá-los. Essa, aliás, é uma das diretrizes de visibilidade da Made For Builders.
Schema: tornar o significado explícito
Dados estruturados não garantem citação, mas tornam o significado da página explícito para máquinas, o que facilita interpretação e atribuição corretas. FAQs marcadas com FAQPage, dados de negócio com LocalBusiness e perguntas e respostas bem estruturadas dão ao sistema material limpo para trabalhar.
O tema tem guia próprio: schema e dados estruturados para serviços residenciais. O ponto-chave aqui é a complementaridade: schema correto + conteúdo factual e citável se reforçam.
Táticas de GEO para prestadores de serviços residenciais
Traduzindo tudo para ações concretas que um encanador, eletricista ou empresa de reforma pode aplicar:
- Escreva páginas que respondem perguntas reais do cliente ("quanto custa", "quanto tempo demora", "vale a pena consertar ou trocar"), de forma direta e no início da resposta.
- Cite fontes verificáveis quando fizer afirmações factuais — exatamente o que o paper de GEO associou a maior visibilidade.
- Use dados com fonte, não números inventados. Conteúdo factual é mais citável; número falso é antiético e frágil.
- Estruture com clareza: H2 descritivos, listas, tabelas, FAQ. Facilita a extração da passagem.
- Mantenha consistência de dados (NAP, serviços, área) entre site, Perfil da Empresa no Google e diretórios.
- Permita os bots de IA legítimos no robots.txt.
- Construa autoridade local com SEO local, avaliações reais e páginas de serviço e de cidade — porque sem recuperação não há citação.

O que ainda não sabemos
Honestidade sobre os limites:
- Os fornecedores não publicam os critérios exatos de seleção e citação. Trabalhamos com documentação pública e pesquisa, não com a fórmula interna.
- Os achados de GEO variam por domínio e foram obtidos em motores e datasets específicos. Não são garantia universal.
- O campo é novo e muda rápido. Modelos, rastreadores e regras evoluem. O que vale hoje pode mudar.
O que é robusto, e provavelmente durável, é o princípio de fundo: sistemas que precisam sustentar respostas preferem conteúdo claro, factual e fundamentado. Apostar nisso é seguro mesmo com a incerteza.
Conclusão
A visibilidade nas respostas de IA generativa segue uma lógica em duas etapas: ser recuperado (fundamentos de SEO) e ser citado (conteúdo claro, factual e fundamentado). O paper de GEO de Aggarwal et al. deu evidência de que citar fontes, usar dados e linguagem de autoridade aumenta a visibilidade gerada — alinhado, não por acaso, com boa redação e honestidade.
Para prestadores, o caminho é direto: escreva conteúdo útil e factual, cite fontes reais, estruture com clareza, marque com schema, permita os bots e construa autoridade local. Continue por o que é GEO, como aparecer no ChatGPT e Perplexity e a estratégia de visibilidade. O restante está no blog.
Resolvemos dúvidas antes de começar
Q/01Como sistemas como ChatGPT e Perplexity escolhem quais fontes citar?
Sistemas com busca (RAG, geração aumentada por recuperação) primeiro recuperam páginas relevantes de um índice de busca e depois geram a resposta a partir delas, citando as que sustentam o texto. A relevância da recuperação depende dos mesmos fundamentos de busca (correspondência à consulta, autoridade, frescor), e a tendência a citar depende de a passagem responder claramente à pergunta. O Perplexity declara publicamente que cita fontes; o AI Overviews do Google usa o índice do Google. Em todos, ser claramente relevante e citável para uma consulta específica aumenta a chance de ser escolhido.
Q/02O que é GEO (Generative Engine Optimization)?
GEO, ou Generative Engine Optimization, é a prática de otimizar conteúdo para aparecer e ser citado nas respostas de motores generativos como ChatGPT, Perplexity e AI Overviews. O termo foi cunhado no paper acadêmico de Aggarwal et al. (arXiv:2311.09735), que propôs um benchmark e testou táticas de conteúdo. É o equivalente, para a era das respostas geradas por IA, do que o SEO é para a busca tradicional: tornar seu conteúdo recuperável, relevante e citável.
Q/03Quais táticas de conteúdo aumentam a citação segundo a pesquisa?
No experimento de Aggarwal et al. (arXiv:2311.09735), adicionar citações de fontes, estatísticas relevantes e linguagem de autoridade (quotation) ao conteúdo aumentou a visibilidade nas respostas geradas por motores generativos, em comparação a técnicas tradicionais de SEO por palavra-chave. O efeito variou conforme o domínio e o tipo de consulta. A leitura prática é que conteúdo factual, bem fundamentado e com fontes citadas tende a ser mais útil e mais citável para um sistema que precisa sustentar suas afirmações.
Q/04Posso bloquear ou devo permitir os bots de IA no meu site?
Para aparecer em respostas de IA com busca, em geral você precisa permitir o rastreamento. O Google usa o índice do Google para o AI Overviews, e controles específicos existem para recursos de IA. A OpenAI documenta seus rastreadores (como o OAI-SearchBot, ligado à busca) e como geri-los via robots.txt. Bloquear esses bots tende a remover você das respostas correspondentes. Para prestadores que querem visibilidade, o padrão recomendado é permitir, e não bloquear, os bots de IA legítimos.
Q/05Schema e dados estruturados ajudam a ser citado por IA?
Dados estruturados tornam o significado da página mais explícito para máquinas, o que ajuda sistemas a entender e atribuir corretamente a informação. Não há garantia formal publicada de que schema aumente diretamente citações em respostas de IA, mas clareza semântica, FAQs bem marcadas e dados consistentes facilitam a interpretação. Combine schema correto com conteúdo factual, claro e bem estruturado.
Q/06GEO substitui o SEO tradicional?
Não. GEO complementa o SEO. Os sistemas generativos com busca dependem de índices de busca para recuperar fontes; portanto, fundamentos de SEO (ser rastreável, relevante, com autoridade e bom desempenho) continuam necessários para ser recuperado antes de ser citado. GEO adiciona uma camada: tornar a passagem clara, factual e citável para uma resposta gerada. Pense em GEO como evolução do SEO para a era das respostas, não como substituição.
