Una guida veloce per la scrittura di un file Robots.txt

Come si fa a consultare un libro di testo enorme? Spulciando l’indice. Ebbene: c'è un elemento che è il vero sommario del tuo sito Web...

Robots.txt: i codici di programmazione sono destinati a diventare sempre più sofisticati
I codici di programmazione sono destinati a diventare sempre più sofisticati

L’unico modo per metterti in contatto con il ragnetto del motore di ricerca, ovvero il crawler, è attraverso un file chiamato Robots.txt. O meglio. Quando sottoponi la tua proposta di sito web a Google, questo si trova davanti ad una mole di informazioni semplicemente colossale.

Come si fa a consultare un libro di testo talmente grande da darti l’impressione che non troverai mai tutto ciò che serve? Consulti l’indice. Ebbene: il file robots.txt è l’indice del tuo sito web.

Si tratta di un documento di facile compilazione che indica al crawler del motore di ricerca che cosa deve guardare. Insomma: lo aiuterai a capire di che pasta è fatto il tuo sito, così che l’algoritmo possa attribuirti un ranking congruo al lavoro che hai svolto.

Tutti possono scrivere un file robots.txt?

La risposta breve è sì. La risposta sincera è no. Sebbene la grammatica di un file robots.txt sia estremamente semplice, e la sua composizione sia di poche righe, è meglio affidarsi alle cure di un esperto webmaster che sa dove mettere le mani. Basta un piccolo errore, del resto, per compromettere il posizionamento del tuo sito web, e dunque mandare tutte le operazioni di SEO a ramengo prima ancora di aver iniziato.

Prima di iniziare, sappi una cosa: chiunque può consultare il file robots.txt di qualunque sito scrivendo, dopo il dominio, uno /robots.txt. Puoi consultare perfino quello di Google!

Puoi scrivere un file di questo tipo senza scaricare software particolari. È infatti sufficiente usare il tuo blocco note e salvare, indovina un po’, in formato .txt.

Scriviamo insieme un robots.txt: l’intestazione

Partiamo dall’inizio, com’è sempre logico fare. L’apertura del file, ovvero l’intestazione, è tutta dedicata al nome dello spider, anticipato da una piccola dicitura sempre uguale. Partiamo dal presupposto che tu voglia farti notare da Google. Dunque la prima riga sarà:

User-agent: Googlebot

Questa brevissima stringa indica a Google che tutto ciò che segue sarà certamente di suo interesse. Nel caso in cui tu voglia che tutti i crawler che leggono questo tipo di file possano consultare il documento, sostituisci Googlebot a un semplice *, un asterisco.

Ora che hai indicato quale spider, cioè CHI, dovrai indicare anche COSA dovrà leggere.

Ogni riga di codice, per definizione, corrisponde a un’azione della macchina. Va da sé che ogni comando del file robots.txt corrisponde a quello che la macchina non deve fare. Ed è questa la chiave che ti permette di scriverne uno davvero efficace. Stiamo parlando del comando DISALLOW.

Che cos’è il comando DISALLOW?

Il comando disallow ti permette di ragionare per esclusione. In altre parole, quando si dice che si fa prima a dire quello che non va fatto – ecco, stai ragionando per esclusione. Ad aggiungersi al disallow c’è anche l’allow, ovvero l’eccezione al blocco.

Se vuoi scrivere un buon file robots, dovrai ragionare al contrario, quindi dovrai dire a Google quello che non deve leggere. Se scrivi:

Disallow:

Lo spider andrà a leggere tutto il tuo sito, senza alcun freno.

Se dopo “Disallow:” inserisci uno slash (dunque Disallow: /), il sito non verrà inserito nei motori di ricerca, punto e basta.

Disallow: /directory/

Sostituisci la parola directory con la cartella che desideri sia negata alla vista dello spider. Puoi fare lo stesso con uno specifico file.

Disallow: /filepersonale.html

ATTENZIONE alla punteggiatura e alle lettere, maiuscole o minuscole. Questo tipo di file tiene in alta considerazione questo genere di “inezie”, che però fanno una grande differenza.

Perché dovresti impedire a Google di leggere buona parte del tuo sito? Quando scrivi un file di questo tipo, è importante capire quali sono i file che non devono comparire sul motore di ricerca, ma senza abusarne. Sappi comunque che chiunque conosca l’indirizzo esatto di quel particolare file potrà accedervi in ogni caso.

Che cos’è il comando ALLOW?

Nel file è possibile aggiungere un’eccezione con il comando ALLOW. La grammatica è identica, ma andrà a creare delle eccezioni al DISALLOW che permetteranno di aprire margini interessanti di esplorazione per lo spider.

Un piccolo esempio di file:

User-agent: Googlebot

Disallow: /immagini/

Allow: /immagini/vacanze.jpg

Sostanzialmente abbiamo detto al Googlebot di non considerare la cartella immagini, fatta eccezione per una particolare foto al suo interno, ovvero quella delle vacanze.

E questo, ragazzi, è quanto. Abbiamo scritto il nostro primo file robots.txt. Certo, quello che andremo a realizzare per il sito vero e proprio potrebbe essere leggermente diverso, ma non di molto. Se sei in dubbio, fatti sempre consigliare da un webmaster specializzato. Ti consigliamo di provare a scriverlo tu, in primis, e inviarlo per un check a lui, così da padroneggiarne i rudimenti e comprendere meglio il funzionamento del tuo sito.

Che correlazione c’è tra robots.txt e sitemap?

La sitemap è un file generato da appositi plugin che contiene tutti i link presenti nel sito. Quando lo spider entra nel sito, legge prima di tutto il robots, poi scansiona il sito. Se durante la scansione del robots trova l’indirizzo della sitemap, tutto il processo sarà molto più facile.

Aggiungi al codice di cui sopra la dicitura:

Sitemap: http://www.ilnomedeltuositobellissimo.com/sitemap.xml

In conclusione

Tutti i file robots sono uguali. Ciò significa che un file Robots scritto per Google andrà benissimo anche per Bing, e segue la stessa grammatica.

Un file robots.txt ben organizzato ti permette di far risparmiare tempo al crawler. Non ti scoraggiare: questo è il primo passo verso il successo!

Robots.txt: Google è il più potente motore di ricerca di Internet
Google è il più potente motore di ricerca di Internet