La parola “robot” ti fa pensare subito e solo a Mazinga Z, Goldrake o R2-D2? Mi spiace deluderti: qui sul web non ci sono raggi fotonici né porte stellari da hackerare a colpi di beep, ma robots è il nome di un file tanto piccolo quanto potenzialmente devastante.
Ripartiamo da zero: sai con certezza quali pagine del tuo sito Google può indicizzare? O meglio: quali dovrebbe vedere e quali no?
Se hai risposto no, sei in buona compagnia, perché per molti proprietari di siti questo tema è misterioso e nascosto. Eppure, secondo i log server di milioni di siti web, uno dei primi file letti da Googlebot a ogni visita è proprio il robots.txt, che dice ai crawler cosa possono o non possono esplorare.
In altre parole, dà accesso o vieta ai motori di ricerca di leggere le pagine del tuo sito. Se sei tu a decidere in modo consapevole, è uno strumento strategico. Ma se lo configuri male – o peggio, lo ignori del tutto – rischi di bloccare pagine importanti e, in una parola, rendere il tuo sito invisibile per e su Google.
Robots.txt: cos’è davvero, a cosa serve e perché non puoi più ignorarlo
Il file robots.txt è quel piccolo documento testuale che riporta istruzioni indirizzate ai crawler dei motori di ricerca per segnalare quali pagine o sezioni del tuo sito possono esplorare e quali invece devono evitare.
È il portinaio digitale del tuo sito web, quello che decide chi può entrare e dove può andare.
Nelle attività SEO e di gestione di un sito rischia di passare inosservato, quasi nascosto come la stanza degli archivi in un ufficio. Ma se lo ignori, rischi che i bot entrino proprio lì dentro a rovistare tra le carte vecchie, i dati sensibili o i contenuti che non vorresti far vedere a nessuno, sprecando il loro tempo tra le cose inutili. O, peggio, se sbagli anche solo un simbolo puoi impedire al tuo sito di apparire tra i risultati di Google!
Il suo ruolo è infatti fondamentale nel processo di crawling, il meccanismo attraverso cui i motori di ricerca “scansionano” il tuo sito per raccogliere informazioni. Senza queste indicazioni, i bot potrebbero sprecare risorse a esplorare pagine inutili o addirittura dannose per la tua strategia SEO, come pagine duplicate, contenuti temporanei o aree riservate.
Questa “visibilità” del file robots.txt è un altro punto da non sottovalutare: essendo posizionato nella root del sito (ossia nella cartella principale), è accessibile pubblicamente a chiunque — utenti, concorrenti, hacker e, naturalmente, bot. Perciò, nel progettare cosa bloccare o permettere, devi essere molto consapevole delle informazioni che stai “lasciando sul tavolo”.
Le note tecniche: conosciamolo più a fondo
Si chiama così perché il suo scopo primario è fornire istruzioni ai “robot” (bot) in un formato di “testo” (.txt) su come devono comportarsi quando visitano un sito web, in particolare per quanto riguarda l’esclusione (o l’inclusione) di determinate aree dalla scansione. È un nome funzionale e diretto, che ne spiega immediatamente il ruolo.
Per capire meglio il ruolo del robots.txt, è utile però distinguere due concetti fondamentali: crawling e indicizzazione.
- Il crawling è il processo con cui i bot visitano e leggono le pagine del sito.
- L’indicizzazione, invece, è la fase successiva in cui le pagine scansionate vengono effettivamente inserite nell’indice del motore di ricerca, pronte a comparire nei risultati.
Il robots.txt agisce esclusivamente sul crawling, imponendo limiti su dove il bot può muoversi. Ma attenzione: non impedisce a una pagina di essere indicizzata, soprattutto se altre pagine linkano a quella che hai bloccato. Quindi il file non è una barriera magica per nascondere contenuti, ma uno strumento per gestire il flusso di esplorazione.
A leggere il robots.txt non è solo Googlebot — che è il più noto — ma anche decine di altri crawler di motori come Bing, Yahoo, DuckDuckGo e persino bot di social network o strumenti di monitoraggio. Ogni bot rispetta questo file, perché è un protocollo standard riconosciuto dal web, ma ci sono anche bot “cattivi” che lo ignorano (per fortuna meno frequenti).
Infine, un chiarimento importante sul rapporto tra robots.txt e posizionamento. Il file non influenza direttamente il ranking di una pagina — bloccare un’area nel robots.txt non migliora né peggiora il posizionamento in sé. Però, un uso intelligente del file può ottimizzare il crawl budget (il tempo e le risorse che i bot dedicano al tuo sito), evitando di far perdere tempo su pagine inutili. Questo aiuta i motori a concentrarsi su ciò che conta davvero, migliorando indirettamente la salute SEO complessiva del progetto.
Breve storia del robots.txt, evoluzioni recenti e il (futuro) rapporto con l’AI
All’apparenza potrebbe sembrare una reliquia tecnologica con quasi trent’anni sulle spalle, ma in realtà siamo di fronte (ancora!) a un pilastro della gestione dei siti, la cui storia e la cui evoluzione riflettono le dinamiche del web stesso. Nato come risposta pratica a un problema specifico, è diventato lo strumento imprescindibile per il controllo dei bot e oggi ha saputo adattarsi e mantenersi rilevante nonostante la sua natura “non ufficiale” e la rapidissima evoluzione del mondo digitale. Nel frattempo, l’avvento dei crawler AI apre nuovi scenari di controllo e protezione dei contenuti, mettendo sotto la lente la necessità di aggiornare (o rivoluzionare) le regole del gioco.
Da cosa nasce il file robots.txt (e perché è ancora rilevante dopo 30 anni)
È il 1994 e Martijn Koster, sviluppatore di sistemi di ricerca impiegato presso il London School of Economics, riceve una lamentela: il crawler di Wanderer (uno dei primi “web crawler” della storia di Internet, che pur non essendo un motore di ricerca nel senso moderno del termine raccoglieva informazioni e indicizzava pagine) sta indicizzando file privati e non destinati al pubblico. Per risolvere questo problema, Koster propose di inserire un semplice file di testo posizionato nella root del server per indicare ai crawler quali directory non avrebbero potuto e dovuto esplorare. Nasce così il Robots Exclusion Standard (RES).
Oltre trent’anni dopo, e pur senza mai esser stato formalmente uno standard ufficiale del W3C o di altri organismi di standardizzazione, il file robots.txt è universalmente accettato (su base volontaria) e rispettato da tutti i principali crawler, da Google a Bing, da Yandex a DuckDuckGo.
Una soluzione pratica e de facto, senza forza di legge, che dimostra innanzitutto una cosa: la necessità di un controllo sui bot di scansione è rimasta invariata, nonostante l’evoluzione esponenziale del web. Il tuo robots.txt è ancora il primo guardiano che ogni bot incontra.
Come lo usano gli altri motori di ricerca (e quali sono le differenze)
Se è vero che tutti i maggiori motori di ricerca onorano il robots.txt, è altrettanto vero che esistono delle sfumature. Google, Bing, Yahoo leggono e interpretano il file secondo le linee guida del RES, focalizzandosi sulle direttive User-agent, Disallow, Allow, Crawl-delay (anche se Google lo considera un suggerimento, non una direttiva vincolante).
Ci sono poi casi specifici: Yandex, ad esempio, supporta direttive aggiuntive come Clean-param, che permette di gestire direttamente nel robots.txt la pulizia dei parametri URL per evitare contenuti duplicati dovuti a varianti. Anche motori meno diffusi in occidente, come Baidu e altri motori asiatici, lo supportano, a volte con interpretazioni o funzionalità leggermente diverse, che richiedono un’attenta verifica se il tuo target è quel mercato.
Non solo i giganti: anche numerosi strumenti SEO di terze parti, crawler di analisi log e software di scraping rispettano il robots.txt. Alcuni di questi, sorprendentemente, onorano persino i commenti inseriti nel file (le righe che iniziano con #), utilizzandoli per scopi diagnostici o informativi, anche se non è richiesto dallo standard.
Robots.txt e Intelligenza Artificiale: esiste un “robots” per l’AI?
L’avvento dell’Intelligenza Artificiale Generativa e dei Large Language Models (LLM) ha introdotto un nuovo tipo di “bot” nel panorama del web: i crawler AI. Strumenti come GPTBot (di OpenAI), ClaudeBot (di Anthropic) o CCBot (di Common Crawl, spesso usato per addestrare LLM) stanno diventando presenze sempre più frequenti nei log dei server e stanno portando nuove sfide per il controllo dell’accesso ai contenuti. Alcuni di questi bot rispettano il file robots.txt e possono essere bloccati con regole specifiche; ad esempio il blocco
User-agent: GPTBot
Disallow: /
vieta a GPTBot di esplorare qualunque pagina del sito. Tuttavia, non tutti gli AI crawler seguono queste regole e non esiste ancora un protocollo unificato come il Robots Exclusion Standard per l’intelligenza artificiale. Comunque, si sta discutendo di possibili nuove policy o file dedicati, come ai-agents.txt o LLM.txt, per distinguere chiaramente le istruzioni per i motori di ricerca tradizionali da quelle per i modelli AI.
La buona notizia è che molti di questi strumenti AI, inclusi quelli di OpenAI, Perplexity e Anthropic, rispettano le direttive del robots.txt. Ciò significa che puoi controllare, almeno in parte, la loro capacità di accedere e potenzialmente utilizzare i contenuti del tuo sito per addestrare i loro modelli. Ma, appunto, non tutti i crawler AI o gli strumenti di data scraping onorano il robots.txt e alcuni operano senza curarsi delle tue direttive, rendendo la protezione dei contenuti una sfida più complessa, che potrebbe richiedere soluzioni a livello di .htaccess o firewall.
Quando usarlo (e quando no): i casi pratici per cui serve davvero il file robots.txt
Robots.txt non è il telecomando del tuo sito, non serve a bloccare tutto e tutti, e non è una bacchetta magica per nascondere contenuti scomodi – anche perché, te lo ripeto, bloccare tramite robots.txt non significa far sparire una pagina da Google, perché se la pagina è linkata altrove può comunque comparire nei risultati, anche senza contenuto visibile o con informazioni parziali.
È più un regolatore di traffico per i bot, uno strumento che come Gandalf sul Ponte di Khazad-dûm dice “qui non passerai” – non al Balrog, però, ma a Googlebot & company, per ottimizzarne il tempo e l’energia.
Il suo uso ha senso solo in scenari ben precisi, dove aiuta a ottimizzare il lavoro dei bot e migliorare la gestione delle risorse del sito. Usarlo senza strategia significa rischiare di bloccare pagine importanti, sprecare risorse o esporre dati sensibili.
In linea di massima, è utile quando si lavora con siti medio-grandi e ci si ritrova con cartelle piene di script, immagini inutili, pagine temporanee o duplicati generati dal CMS. In questo caso, ti conviene aggiungere delle limitazioni nel file per queste risorse, che fanno perdere tempo ai crawler e opportunità a te.
Altro mito da sfatare: robots.txt non è una cassaforte. È pubblico, e chiunque può leggerlo. Usarlo come barriera per contenuti privati è una via garantita per invitare curiosi e scraper a fare il loro gioco.
Infine, occhio alle pagine duplicate e ai parametri URL. Un uso ponderato di robots.txt può aiutare a evitare confusione nei crawler, ma serve sempre un’analisi prima di agire: bloccare a caso può creare più danni che benefici, specie se non si monitorano dati come le crawl stats o i log server.
Limitare il crawling: come gestire le risorse meno strategiche
Andiamo maggiormente nei dettagli. Il primo e più comune utilizzo del robots.txt è limitare il crawling su aree del sito che non hanno valore SEO o che, peggio, possono creare confusione.
Googlebot non passerà ore a scandagliare ogni angolo del tuo sito e tutti i bot sono come visitatori con tempo limitato: se li lasci esplorare ogni singola pagina di filtro, archivio o tag inutili, sprechi il loro tempo prezioso. Quindi ha senso bloccare cartelle o URL che consumano crawl budget senza produrre valore, perché così eviti di sottrarre “attenzione” preziosa alle pagine per te davvero importanti.
Ricorda, però: Il file serve solo a dire “Non passare da qui”, non “Non mostrare questa pagina”.
Nascondere aree private? No, è solo un segnale per i crawler
Sbagli strada anche se pensi che il robots.txt sia un lucchetto per le pagine riservate, impedisca l’accesso diretto o limiti la visibilità di queste pagine. Indicare aree sensibili in questo file pubblico è come mettere l’elenco delle chiavi della tua cassaforte su un foglio attaccato alla porta.
Ciò espone il sito a rischi di scraping, attacchi mirati o semplicemente a una maggiore visibilità di contenuti che vorresti mantenere riservati.
La protezione delle aree private passa per sistemi di autenticazione, regole di accesso server o l’uso di metatag “noindex” per evitare che certe pagine finiscano nei risultati di ricerca, senza bloccare il crawling.
Evitare duplicazioni e contenuti “zavorra”: quando conviene e cosa valutare prima
Uno dei problemi più frequenti che ti trovi ad affrontare con un sito dinamico è il proliferare di URL quasi identici: parametri inutili, pagine generate da CMS che creano versioni fantasma o URL con session ID. Tutti questi elementi sprecano crawl budget, possono causare problemi di contenuti duplicati e complicano l’analisi SEO.
Il robots.txt può aiutare a limitare il crawling delle risorse “zavorra”, ma è importante agire solo dopo un’attenta analisi. Se blocchi pagine che servono per la navigazione o che hanno backlink, rischi di far sparire contenuti importanti da Google.
Prima di bloccare, valuta dati come:
- Le statistiche di crawling dal Google Search Console o altri tool, per capire quali URL consumano più risorse.
- I log server, per verificare quali richieste arrivano più spesso dai bot.
- Le segnalazioni di pagine duplicate o contenuti sottili.
Solo a questo punto, a quadro completo, puoi bloccare risorse come /tag/, /trackback/ o URL con parametri inutili. Bloccare a caso rischia di far sparire da Google pagine importanti o di impedisce l’invio di segnali utili al motore di ricerca.
Come si scrive un file robots.txt efficace: sintassi, comandi, errori da evitare
Mettere mano a un file robots.txt non è roba da smanettoni dell’ultimo minuto, ma nemmeno un’esclusiva da guru della SEO. Il trucco è conoscere la sintassi essenziale e capire come tradurla in regole che servono davvero al tuo sito, senza sparare nel mucchio o chiudere porte che invece ti servirebbero aperte.
L’efficacia non si misura dalla quantità di righe o dal fatto di bloccare tutto ciò che non ti convince, ma dalla capacità di orientare il comportamento dei bot in modo preciso, coerente e senza sorprese. Questo significa conoscere bene i comandi base (User-agent, Disallow, Allow) e saperli combinare in scenari reali, come e-commerce con cataloghi immensi, blog con contenuti multimediali, o portali verticali dove le risorse da indicizzare sono selettive.
Attenzione poi alle sottigliezze: un errore nella sintassi, un comando mal piazzato o troppe restrizioni possono rallentare il crawling, limitare l’accesso a file essenziali come CSS e JavaScript, e finire per penalizzare il posizionamento senza che tu te ne accorga subito. La pratica comune di scrivere “blocca tutto quello che non voglio che venga visto” può tradursi in un boomerang SEO.
Infine, non dimenticare che i comandi meno noti — come la dichiarazione della sitemap o il crawl-delay — non sono sempre indispensabili, ma possono fare la differenza in contesti specifici, specie quando si ha a che fare con bot meno “standard” o con risorse server limitate.
I comandi fondamentali: User-agent, Disallow, Allow
Guardiamo un po’ più da vicino la grammatica di base di questo file.
User-agent è il destinatario delle regole: indica a quale bot si rivolge quella sezione del file. Puoi specificare un singolo bot, come Googlebot, o usare l’asterisco (*) per indicare “tutti”.
Disallow blocca l’accesso a URL o cartelle precise. Se vuoi chiudere una porta, qui è dove lo fai.
Allow fa l’opposto: autorizza il crawling di risorse che altrimenti sarebbero bloccate da un Disallow più generale. Utile per fare eccezioni chirurgiche, per esempio bloccare tutta una cartella tranne un file importante.
Esempio pratico per un e-commerce:
- User-agent: *
- Disallow: /carrello/
- Disallow: /checkout/
- Allow: /checkout/metodo-pagamento.html
Così eviti che i bot frughi tra i processi di acquisto ma lasci visibile la pagina informativa del metodo di pagamento.
Sitemap, crawl-delay e altri comandi meno usati ma utili
Dichiarare la sitemap nel robots.txt aiuta i bot a trovarla subito, accelerando l’indicizzazione:
Sitemap: https://tuosito.it/sitemap.xml
Il crawl-delay serve a “rallentare” il bot quando il server è sotto stress. Googlebot di solito ignora questo comando, ma bot più piccoli o meno noti lo rispettano. Usalo solo se hai problemi di risorse, altrimenti è inutile.
Altri comandi, come Noindex (non ufficiale per robots.txt), sono ignorati dalla maggior parte dei motori. Alcuni bot meno diffusi però li supportano, ma è sempre meglio affidarsi ai metatag HTML per cose delicate.
Errori comuni che rovinano la scansione (e il posizionamento)
Il peggior nemico di un buon robots.txt è la svista. Bloccare CSS o JavaScript essenziali può trasformare il tuo sito in un puzzle incompleto per Google, con evidenti danni al ranking.
Un file troppo restrittivo può impedire ai bot di capire come è fatto il sito, mentre uno troppo permissivo lascia fuori controllo aree che invece vorresti riservate.
Un caso reale? Un grande sito di ecommerce ha visto un crollo del traffico dopo aver bloccato la cartella /assets/ con CSS e JS, perché Google non riusciva a renderizzare le pagine correttamente. Risultato: perdita di posizioni su keyword strategiche e un bel mal di testa per gli sviluppatori.
Quindi: testa sempre il robots.txt con tool specifici (Google Search Console o altri crawler di prova), e monitora il comportamento dei bot nei log.
Regole, sintassi e strumenti minimi
In termini pratici, ancora oggi il file robots.txt si scrive come si faceva una volta: a mano, in chiaro, senza HTML, senza tag, senza complicazioni. Ti basta un editor di testo semplice come Notepad su Windows o TextEdit su macOS (in modalità testo normale, non RTF). Nessun Word, nessun Google Docs, grazie.
Il robots.txt è infatti un file di testo puro (.txt), da salvare nella directory root del dominio (https://www.miosito.it/robots.txt). Niente sottocartelle, niente sottodomini, niente redirect.
La sua sintassi è minimalista, ma non ammette errori. In particolare, devi fare attenzione a:
- Non lasciare spazi o caratteri strani dopo i due punti.
- Il file fa distinzione tra maiuscole e minuscole: /Admin/ è diverso da /admin/.
- Il percorso è relativo alla root, non al dominio completo.
- Le regole sono lette top-down ma non esclusive: se un crawler trova due blocchi che lo riguardano, ne valuterà la pertinenza secondo la propria logica (Google ad esempio usa la regola più specifica).
Inoltre, puoi sfruttare l’hashtag all’inizio della riga per fare dei commenti, che non saranno interpretati dai crawler, ma ti serviranno a spiegare perché stai bloccando qualcosa.
Infine, uno sguardo a formati ed encoding:
- Il file deve essere UTF-8 senza BOM.
- Deve chiamarsi esattamente robots.txt.
- Non deve superare i 500 KB (Google lo tronca se è più lungo).
Dove si trova, come si testa e aggiorna: strumenti e buone pratiche per gestirlo al meglio
Il file robots.txt è una specie di “vigile” per i crawler dei motori di ricerca: indica cosa possono o non possono esplorare, ed è il primo filtro di controllo che un sito può mettere a disposizione. Non deve essere nascosto da qualche parte nel sito, o dentro una sottocartella ben protetta, ,ma deve essere posizionato nella root del dominio, cioè alla radice, esattamente come www.tuosito.it/robots.txt. Se lo metti in un’altra cartella, il bot non lo troverà e andrà a esplorare tutto senza limitazioni.
I protocolli standard dei crawler – Googlebot, Bingbot, ma anche bot meno noti – cercano il file esclusivamente in questo percorso. Se non lo trovano, assumono che non ci siano restrizioni e procedono senza limiti. In pratica, se non hai un robots.txt, è come se il tuo sito fosse un libro aperto per i bot, senza indicazioni su cosa sfogliare o meno. Questa posizione è stata scelta per mantenere un sistema semplice e universale, ma anche per evitare confusione.
L’assenza del file robots.txt non blocca la scansione, tutt’altro. I motori di ricerca entrano e scansionano tutto quello che trovano accessibile pubblicamente. Questo può andar bene in siti piccoli o con contenuti uniformi, ma diventa un problema se hai aree riservate, pagine duplicate o risorse inutili che vuoi evitare di sprecare nella scansione.
Ecco perché avere un robots.txt, anche “vuoto”, è una dichiarazione di intenti e controllo.
Come testarlo prima della pubblicazione (e dopo)
Saper scrivere il file è solo metà dell’opera. Il vero problema arriva nel momento in cui lo pubblichi e vuoi essere sicuro che funzioni come deve, senza errori che compromettano l’indicizzazione o la visibilità del sito.
Google offre nella Search Console uno strumento di test robots.txt che permette di simulare il comportamento del file, valutando quali URL sono bloccati o consentiti. È uno strumento fondamentale, ma va usato con consapevolezza: non è infallibile né esaustivo. Per esempio, non tutti i bot si comportano esattamente come Googlebot, e le modifiche possono avere effetto anche dopo qualche ora o giorno.
Per capire davvero se i bot leggono il file e rispettano le regole, l’analisi dei log server è imprescindibile. Nei log si vede se Googlebot o altri bot hanno effettivamente scaricato il robots.txt, quando e come hanno scansionato il sito. Questo ti permette di scoprire problemi invisibili da altri strumenti, come ad esempio bot non autorizzati o errori di configurazione.
Spesso si lavora su siti in ambienti di test o staging dove il file robots.txt può essere configurato diversamente (spesso per bloccare tutto ed evitare indicizzazione). Bisogna fare attenzione a non trasferire queste configurazioni nell’ambiente di produzione, o si rischia di bloccare tutto il sito ai motori di ricerca.
Aggiornarlo senza rischiare danni SEO
Te l’ho detto varie volte, sia implicitamente che in modo più diretto: basta un errore nel file per bloccare pagine importanti o far entrare i bot in aree non desiderate, con impatti pesanti sulla SEO.
Il processo di aggiornamento parte da versionamento e backup. Ogni modifica dovrebbe essere documentata e salvata. Conservare le versioni precedenti ti permette di tornare rapidamente a configurazioni che funzionavano, evitando perdite di traffico dovute a errori.
Bloccare risorse importanti come CSS o JavaScript può rendere il sito “incomprensibile” per Google, che non riesce a simulare correttamente l’esperienza utente. Al contrario, aprire troppo il sito può portare a sprecare crawl budget o a indicizzare contenuti inutili.
Google legge il file regolarmente, non serve avvisarlo ad ogni modifica. Tuttavia, se cambi radicalmente le regole, puoi forzare la nuova lettura attraverso la Search Console, richiedendo la scansione del file aggiornato.
Robots.txt e SEO: rapporto indiretto ma strategico (se sai cosa stai facendo)
Partiamo da un fatto: il robots.txt non influenza direttamente il ranking su Google. Non è un fattore di posizionamento come i backlink o la qualità del contenuto. Però chi pensa che sia un dettaglio secondario spesso si prende una cantonata colossale. Perché? Perché il file, quando ben gestito, diventa un guardiano silenzioso del crawl budget e un alleato prezioso nella gestione dell’indicizzazione.
In parole semplici, il robots.txt decide cosa i bot possono esplorare e cosa invece deve restare fuori dai radar, permettendo di concentrare le risorse di scansione su ciò che conta davvero. Se usato male, invece, si rischia di bloccare pagine o risorse fondamentali, danneggiando la capacità del motore di comprendere il sito e quindi di posizionarlo al meglio.
Quindi: niente magie sul ranking, ma un effetto strategico che può fare la differenza tra un sito ben indicizzato e uno che si trascina in fondo alla SERP senza capirne il motivo.
Ottimizzare il crawl budget: quando serve e per quali siti ha senso
Il crawl budget è la quantità di risorse che un motore di ricerca dedica a scandagliare un sito in un certo arco di tempo. Non è un problema per tutti: se hai un blog piccolo o un sito statico, Google esplorerà tutto senza problemi. Ma per siti grandi, con migliaia di pagine, e-commerce o portali complessi, il crawl budget può diventare un limite reale.
I segnali da monitorare sono chiari: statistiche di crawl nella Google Search Console, analisi dei log server e verifica delle sitemap. Se vedi pagine importanti non scansionate, o molte risorse inutili che consumano tempo, è il momento di intervenire.
Il robots.txt aiuta a ridurre il rumore, bloccando risorse inutili o pagine duplicate che non meritano scansione. Però attenzione: è una toppa che può aiutare ma non sostituisce una buona architettura SEO e un lavoro di ottimizzazione più profondo.
Il rapporto con la sitemap: come coordinare i due strumenti
Dichiarare la sitemap nel robots.txt è una buona pratica perché aiuta i bot a trovarla più facilmente e a indicizzare il sito con maggior efficienza. La riga Sitemap: https://tuosito.it/sitemap.xml nel file è un segnale diretto.
Tuttavia, bisogna evitare contraddizioni: se blocchi nel robots.txt alcune pagine, ma queste sono elencate nella sitemap, si crea confusione. Google dovrà scegliere cosa fare, e spesso ignorerà il robots.txt o scarterà la sitemap, con potenziali effetti negativi.
Il coordinamento tra robots.txt e sitemap deve essere sempre coerente e allineato con la strategia SEO complessiva.
SEO tecnica e robots.txt: sinergie possibili (ma da maneggiare con cautela)
Il robots.txt può essere uno strumento tattico in campagne temporanee, per esempio quando vuoi nascondere sezioni del sito durante una ristrutturazione o un test A/B. Allo stesso modo, può aiutare a gestire contenuti archiviati o vecchi che non vuoi mostrare ai bot ma che devono restare accessibili per utenti registrati o tramite link diretti.
Inoltre, bloccare sezioni zavorra come paginazioni infinite, parametri URL inutili o contenuti duplicati può alleggerire il lavoro dei crawler, aiutando a concentrare la scansione sulle pagine davvero strategiche.
Ma attenzione: queste manovre richiedono competenza e precisione, perché un errore può tradursi in pagine non indicizzate, perdita di traffico e impatti SEO rilevanti.
FAQ reali su robots.txt (quelle che si pongono davvero le aziende, non i bot SEO)
Le domande sul robots.txt non sono solo roba da smanettoni: aziende, marketer e web manager spesso si trovano a chiedersi cosa serve davvero questo file e come evitarne gli errori più classici. Qui le risposte rapide e pratiche, senza giri di parole.
- È obbligatorio avere un file robots.txt?
No, non è obbligatorio. Se non ce l’hai, i bot tenteranno di scansionare tutto il sito. Però averlo è una buona pratica per dire ai crawler cosa non esplorare, risparmiando risorse e prevenendo problemi. Se il tuo sito è piccolo e semplice, può anche andare bene senza, ma appena cresci o hai aree meno strategiche, diventa quasi indispensabile.
- Posso usarlo per impedire a Google di indicizzare una pagina?
No, il robots.txt non blocca l’indicizzazione, solo il crawling. Se vuoi evitare che una pagina appaia nei risultati di ricerca devi usare il metatag noindex o l’intestazione HTTP equivalente. Se blocchi la pagina via robots.txt, Google potrebbe ancora indicizzarla se trova link esterni, ma senza poterne leggere il contenuto.
- Come capisco se un bot lo sta davvero leggendo?
Controlla i log del server: lì vedi se i bot (Googlebot, Bingbot, ecc.) fanno richieste al file robots.txt prima di accedere alle pagine. Puoi anche usare lo strumento di test robots.txt di Google Search Console per simulare il comportamento di Googlebot, ma il log server resta il metodo più affidabile.
- Che succede se lo configuro male?
Puoi bloccare pagine o risorse importanti, come file CSS o JS, compromettendo il rendering e la comprensione del sito da parte dei motori di ricerca. Oppure puoi aprire troppo, sprecando crawl budget. Entrambe le cose impattano negativamente sulla SEO. Il risultato può essere una perdita di traffico improvvisa o un posizionamento che peggiora senza apparenti motivi.
- Come lo uso in un sito multilingua?
Il robots.txt è un file unico per dominio, quindi devi scrivere regole che valgano per tutte le lingue o usare sottodomini/cartelle diverse con robots.txt specifici per ognuno. Attento a non bloccare risorse essenziali per una lingua mentre ne permetti altre: l’ideale è testare sempre ogni versione. Per esempio, bloccare /en/private ma lasciare libero /it/ senza errori di sintassi.
Checklist operativa per creare e mantenere un file robots.txt efficace
Spero che ti sia chiaro, a questo punto, che gestire un file robots.txt non è roba da improvvisare o da scrivere una volta e dimenticare. Soprattutto se ti occupi di più siti o fai consulenza, hai bisogno di un approccio metodico e un controllo costante, di un file chiaro, pulito, aggiornato e sempre testato, perché ogni modifica può influire sul modo in cui i motori di ricerca leggono il tuo sito.
Ti propongo una sintesi pragmatica per mettere ordine e non farti sorprendere da problemi SEO nascosti, iniziando dagli step da seguire per scrivere il file robots.txt in modo corretto.
- Analizza la struttura del sito: individua le sezioni da limitare al crawling (ad esempio cartelle con dati non rilevanti, aree di test, pagine duplicate).
- Definisci regole precise: usa User-agent per targettare i bot importanti, Disallow per bloccare quello che vuoi evitare, Allow per eccezioni chiare.
- Dichiara la sitemap: se ce l’hai, inseriscila nel file per agevolare l’indicizzazione.
- Evita blocchi eccessivi: non fermare risorse come CSS e JS essenziali al rendering; verifica con test e log.
- Documenta ogni modifica: annota cosa cambi e perché, per gestire versioni e rollback se serve.
Non penserai mica di aver finito! CI sono anche le verifiche periodiche, ovvero gli aspetti da controllare (almeno) ogni 6 mesi
- Log di accesso: conferma che i bot leggano il robots.txt e rispettino le regole.
- Google Search Console: usa il tester integrato per simulare accessi e verificare errori.
- Crawl budget: valuta se il file aiuta davvero a ottimizzare la scansione.
- Aggiornamenti del sito: rivedi regole in caso di nuove sezioni o eliminazioni.
- Backup e versioning: conserva sempre una copia storica per tornare indietro se qualcosa va storto.
Non ce la fai a seguire tutto questo? Non c’è problema: ci sono varie risorse utili per testare e monitorare, da strumenti ufficiali a quelli alternativi.
- Google Search Console – Tester Robots.txt: simula il comportamento di Googlebot, semplice e gratuito.
- Bing Webmaster Tools: offre un test simile e informazioni specifiche per Bingbot.
- Log file analyzer (ad esempio Screaming Frog, Botify): per capire il reale comportamento dei crawler sul tuo sito.
- Strumenti online di terze parti (come SEOChecker o Varvy): offrono controlli rapidi e suggerimenti pratici.
- Editor di testo con controllo sintassi: per evitare errori di scrittura nel file (ad esempio Notepad++ o VS Code).
Gestire bene il robots.txt non è solo una questione tecnica, ma un’operazione continua che richiede attenzione, test e aggiornamenti regolari. Solo così puoi sfruttarlo al meglio senza rischiare di buttare via traffico o visibilità.