Question 1

Cos'è un file robots.txt?

Accepted Answer

Un file robots.txt indica ai crawler dei motori di ricerca a quali parti del tuo sito possono o non possono accedere. Si trova nella root del tuo dominio ed è il primo file che la maggior parte dei crawler richiede quando visita il sito.

Question 2

Dove devo posizionare il file robots.txt?

Accepted Answer

Deve trovarsi nella root del tuo dominio — per esempio https://example.com/robots.txt. Le posizioni in sottocartelle vengono ignorate. Ogni sottodominio richiede il proprio robots.txt (per esempio blog.example.com/robots.txt è separato da example.com/robots.txt).

Question 3

Qual è la differenza tra Allow e Disallow?

Accepted Answer

Disallow indica al crawler di non accedere ai percorsi elencati. Allow autorizza esplicitamente percorsi che corrisponderebbero altrimenti a una regola Disallow — utile per creare eccezioni. Una riga Disallow: vuota significa consentire tutto.

Question 4

Come blocco i crawler di IA che copiano il mio sito?

Accepted Answer

Usa il modello Blocca crawler di IA sopra. Aggiunge regole Disallow: / per GPTBot, ClaudeBot, CCBot, PerplexityBot, Google-Extended, Amazonbot e altri grandi crawler di addestramento IA. Nota che non tutti i bot di IA rispettano robots.txt — combinalo con blocchi lato server per una protezione più forte.

Question 5

robots.txt può impedire completamente a un motore di ricerca di indicizzare le mie pagine?

Accepted Answer

No. robots.txt controlla il crawling, non l'indicizzazione. Una pagina bloccata in robots.txt può comunque apparire nei risultati di ricerca se altre pagine la collegano. Per impedire l'indicizzazione, usa invece un meta tag noindex o un header HTTP.

Question 6

Ho bisogno di un file robots.txt se voglio che tutto venga scansionato?

Accepted Answer

No. Se non hai un file robots.txt, i crawler presumono che tutto sia consentito. Un robots.txt è necessario solo se vuoi limitare l'accesso o indicare ai crawler dove si trova il sitemap.

Question 7

Come verifico che il mio robots.txt funzioni?

Accepted Answer

Carica il file nella root del tuo dominio e visita tuodominio.com/robots.txt in un browser. Per test più approfonditi, usa il tester robots.txt di Google Search Console o Bing Webmaster Tools. Mostrano esattamente quali URL sono bloccati o consentiti per crawler specifici.

Generatore di robots.txt

Regole per user-agent

Sitemap

Domande frequenti

Generatore di robots.txt

Regole per user-agent

Sitemap

Domande frequenti

Strumenti correlati