Il file robots.txt: cos’è e a cosa serve
Gli spider (detti anche crawler) sono dei bot programmati per scansionare periodicamente la rete alla ricerca di informazioni che vengono poi memorizzate e dotate di un indice, in modo da essere messe a disposizione del motore di ricerca per il quale lo spider “lavora”. Il file robots.txt è un semplice file di testo scritto secondo una certa struttura, che aiuta questi spider a capire cosa indicizzare o no all’interno del nostro sito internet, permettondoci di escludere ciò che vogliamo da chi vogliamo.
L’ideazione del file robots.txt risale al 1994, ed è ormai diventato un vero e proprio standard, tanto che è diventata la prima cosa ricercata dai crawler, e proprio per questo motivo conviene averne uno anche vuoto in modo da non generare errori alla sua richiesta.
Crearlo è un’operazione davvero molto semplice che tutti quanti possiamo fare con il semplice blocco note.La struttura che il file deve avere è questa qui:
User-agent: nome_dello_spider Disallow: contenuto_da_non_indicizzare
La prima riga contiene il nome dello spider che verrà escluso, mentre la seconda contiene la zona del sito a cui non potrà accedere. Ci sono due caratteri da ricordare: * che messo in user agent avrà riferimento per tutti gli spider, e / che messo in user agent escluderà tutto il sito.
Facciamo un paio di esempi:
Escludiamo a tutti gli spider l’accesso alla nostra cartella images e alla cartella css.
User-agent: * Disallow: /images/ Disallow: /css/
Escludiamo allo spider di ricerca delle immagini di Google tutto il nostro sito.
User-agent: Googlebot-Image Disallow: /
Questo file andrà posizionato semplicemente nella root del nostro sito, in modo che sia disponibile all’indirizzo www.miosito.it/robots.txt .
Leave a Reply
Want to join the discussion?Feel free to contribute!