Le robots.txt, Google en est fan

Par Yohann - 6 minutes de lecture
robots txt

Le robots.txt est un fichier peu connu du grand public alors qu’il est pris en compte par Google et permet de gagner du budget crawl. Cela signifie que Google passera plus de temps sur les pages qui vous intéressent, c’est donc très intéressant. Expert SEO, je vous explique ce qu’est un robots.txt, quoi mettre dedans et où le tester.

Qu’est-ce que le robots.txt ?

Inventé en 1994, le robots.txt est un protocole d’exclusion destiné aux robots d’indexation des moteurs de recherche (Google, Bing, Yandex…). Depuis cette date, il est devenu un standard du web.

Le robots.txt est un fichier texte qui indique principalement les urls (à l’unité ou par regroupement) interdites aux robots. Il peut également indiquer l’emplacement du sitemap, voir un sous-répertoire autorisé et donc pas ricochet le (ou les) répertoires interdits.

Attention, vous interdisez les urls aux crawls, mais celles qui ne le sont pas, ne sont pas forcément indexées pour autant. Voir mon article sur la différence entre référencement et indexation.

Pourquoi le robots.txt est très important pour Google ?

C’est la 1ère chose que les Googlebots viennent voir sur un site web afin de prendre connaissance des urls interdites. Les erreurs les plus fréquentes :

  • Un mauvais ordre donné : vous vous trompez et indiquez aux robots de ne pas venir sur l’ensemble du site. Ne rigolez pas, cela arrive y compris aux gros sites web notamment après une refonte (et oui, on bloque les robots sur la preprod…) !
  • Ne pas avoir de robots.txt : Google va lire toutes les urls de votre site web, sans priorisation, il pourra donc passer sur celles qui ne sont pas importantes en SEO et zapper celles que le sont.
  • L’url du robots.txt est en erreur 404, ce qui revient à ne pas en avoir.
  • Un mauvais encodage du robots.txt ce qui le rend illisible pour les Googlebots…

Pour rappel ou information, le robots.txt se place toujours à la racine de votre site. Ici, c’est yj-seo.fr/robots.txt. Tous les sites fonctionnent ainsi y compris les plus gros (cf. l’illustration tout en haut avec le robots.txt d’Amazon ou Facebook).

Quelle sont les directives à mettre dans un robots.txt ?

La première directive est d’indiquer à quels robots vous souhaitez parler. Est-ce uniquement aux Googlebots ou à tous les robots d’indexation ? Généralement, il faut parler à tous les bots, il faut donc mettre :

User-agent: *

Ensuite, place aux urls que vous souhaitez bloquer pour le crawl avec la directive « Disallow: ». Exemple l’url de connexion sur WordPress :

Disallow: /wp-admin

Concernant les sites WordPress, je conseille de bloquer les urls suivantes :

  • L’admin de connexion : /wp-admin
  • Le dossier qui abrite tous les fichiers WP : /wp-includes
  • Le dossier qui contient plugins et les fichiers de cache : /wp-content/plugins et /wp-cache
  • Les feeds ou flux RSS du site : /feed
  • Les commentaires : /comments

Cela donnerait donc, pour le moment, un fichier robots.txt comme cela :

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /feed
Disallow: /comments

Vu que c’est le 1er endroit où passent les Googlebot, il est pertinent de renseigner le (ou les) sitemap du site internet (bien vérifier l’url de votre sitemap en amont).

Sitemap: https://www.nom-domaine.fr/sitemap.xml

Un robots.txt WordPress relativement complet serait donc :

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /feed
Disallow: /comments

Sitemap: https://www.nom-domaine.fr/sitemap.xml [Mettez la bonne url]

Je pourrais vous donner des centaines d’exemples, de conseils (etc.) mais c’est très personnalisé à chaque site web. Un exemple fréquent : vous ne souhaitez pas référencer vos PDF, voici le code à indiquer pour exclure les PDF du passage des Googlebots par le robots.txt :

Disallow: /*.pdf

« Disallow » veut dire que vous excluez ce qui suit, « /* » veut dire que tous les mots qui vont remplacer le « * » sont inclus dans l’exclusion et « .pdf » que l’url doit se terminer par cela. Exemple, les urls « /document.pdf » ou « /comment-bien-manger-a-table.pdf » ne seront pas lus par Google.

Comment faire un robots.txt avec WordPress ?

Il existe 2 possibilités, à vous de sélectionner celle de votre choix.

Faire un robots.txt avec Yoast SEO

Yoast SEO est le meilleur plugin SEO sur WordPress, il a une partie gratuite (qui est largement suffisante) et des fonctions premium. Le robots.txt est inclus dans la version gratuite !

robots txt yoast
Où créer un robots.txt sur Yoast SEO ?

Allez dans Yoast SEO, Outils et cliquez sur Éditeur de fichiers. Soit il existe déjà et vous pouvez mettre les indications que j’ai fournies et/ou les vôtres, soit il n’existe pas et vous pouvez le créer. Quoi qu’il arrive, faites attention à bien le compléter et à cliquer sur « Enregistrer les changements de robots.txt ».

Faire un robots.txt soi-même

Il vous faut un outil pour l’écrire (Nodepad++ ou Notes), remplir les données, les enregistrer avec le nom « robots » et en format .txt. Le nom final doit être « robots.txt » (pas de robots.docx par exemple).

Ensuite, à l’aide de votre FTP, allez le mettre à la racine du site.

C’est une technique peu compliquée pour celles et ceux qui maitrisent un minimum le FTP sinon je déconseille de tester cela sous peine de faire de belles bêtises sur votre site.

Comment tester son robots.txt ?

Vous souhaitez être sûr qu’une url est bien bloquée par le robots.txt que vous avez créé ou à l’inverse qu’une url n’est pas bloquée ? Pour ce faire, Google vous propose le Robots Testing Tool. Cela nécessite d’avoir un accès à la Search Console.

Conclusion sur le robots.txt

Le robots.txt est un fichier à compléter avec attention lorsque vous créez votre site, mais logiquement, il doit peu évoluer par la suite.  Vous pouvez regarder mon robots.txt, c’est exactement celui que je vous donne un peu plus haut 🙂 . À vous de jouer.

Yohann| Expert SEO

5/5 - (1 vote)

Yohann

Expert SEO depuis + de 10 ans, je suis à votre disposition si vous avez un projet SEO, une création de site internet ou former vos équipes au SEO.

Commentaires

Laisser un commentaire

Votre commentaire sera révisé par les administrateurs si besoin.