Il file robots.txt è di grande importanza ai fini della scansione/crawling di un sito, ovvero la prima fase che porta poi al posizionamento (ranking). Insomma, saper utilizzare bene il file robots, ed evitare una delle casistiche-tipo che bloccano il sito ai motori di ricerca permette di evitare gaffe e brutte figure.
Non poche volte mi è infatti capitato di sentirmi dire “devi darmi una mano, il mio sito è stato penalizzato, non si trova più su Google!” quando poi c’era un robots male impostato (oppure con la scansione bloccata perché dimentichi della messa online) che non permetteva la scansione.
Come si compila il robots.txt
Affrontiamo la compilazione del file robots.txt , per il quale – essendo proprio un file txt – basta aprire il Blocco Note e digitare:
User-agent:*
Con questo elemento si definisce a quale robots ci si vuole riferire, ad esempio il bot di Google si chiama “googlebot”. Se volessimo agire solo su questo bot, e non su altri (dei quali di liste è pieno il Web) dovremmo inserire solo quella dicitura. Mentre l’asterisco si riferisce a tutti i robot, è forse meglio in quanto semplifica la gestione del file stesso, a meno che non ci siano motivazioni specifiche.
Allow e disallow
Possiamo poi distinguere fra “allow” per segnalare ai bot quali url delle pagine scansionare e indicizzare e “disallow” quali non vogliamo lo siano. In realtà, in assenza di specifiche o di un file robots.txt, i motori di ricerca tendono sempre a scansionare e indicizzare mentre la funzione di disallow è effettivamente utile se non si vogliono avere sul motore di ricerca pagine come quelle di gestione o di backend.
Ad esempio su WordPress:
user-agent:*
Disallow: /wp-admin
Tornando alla casistica iniziale, inserendo in disallow “/” si mette l’intero sito, ed ecco qui l’equivoco del non trovarsi le pagine su Google
E tu cosa ne pensi? Hai mai utilizzato, sapevi come utilizzare il file robots.txt?