Fichier robots.txt optimisé pour WordPress

WordPress contient des dossiers sensibles, comme wp-admin ou wp-include, qui ne devraient pas être indexés par mesure de sécurité.

Grâce à un fichier robots.txt optimisé pour WordPress, on indique aux différents moteurs de recherche les dossiers et fichiers à ne pas indexer.

Le fichier robots.txt contient une liste de commande destiner aux différents spiders d’indexation des moteurs de recherche. Il précise les pages ou dossiers qui doivent ou ne doivent pas être indexés par les robots.

Ce fichier unique se trouve obligatoirement à la racine de votre site Internet et il doit être accessible via cette adresse : www.mon-domaine.com/robots.txt.

Tous les moteurs de recherche commencent l’exploration d’un site en cherchant le fichier robots.txt à cette adresse. Si le fichier n’existe pas, le robot commence son indexation à partir de l’adresse par laquelle il est arrivé.

Voici un fichier robots.txt optimisé pour un site Internet  ou blog réalisé sur  WordPress.

User-agent: *
# On empêche l'indexation des dossiers sensibles
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
# On autorise l'indexation des images
Allow: /wp-content/uploads
User-agent: Googlebot
# On empêche l'indexation des fichiers sensibles
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# On indique au spider le lien vers notre sitemap
Sitemap: http://www.geekpress.fr/sitemap.xml
Auteur : jonathan
Actuellement en Master 1 Information Communication à Ingémédia, je m’intéresse depuis quelques années à différents aspects du milieu informatique qui m’ont vraiment séduits tels que la gestion de projet et la création de sites Internet.
Avatar de jonathan
Les commentaires 15 commentaires sur cet article
  1. Silv3r le

    Merci pour cet excellent tuto. Il m’a permis d’ajouter à mon robots.txt certaines choses que j’avais omis. Par contre es-tu certain qu’il s’agit bien pour Google AdSense de mettre User-agent: Mediapartners-Google* avec l’étoile * ?

    Avatar de
  2. Silv3r le

    Sur la source, ils ne mettent pas d’étoile (*) à la suite de User-agent: Mediapartners-Google. Je ne comprends pas.

    Avatar de
  3. noann le

    Attention que la directive ‘allow’ n’est pas comprise par tous les moteurs de recherche !

    On a beaucoup discuté  sur le problème du robots.txt

     

    En ce qui me concerne, pour avoir créé plusieurs sites, avec des robots.txt plus ou moins élaborés, j’ai constaté qu’il y avait peu de différences (il suffit de consulter Google webmaster tools)

     

    Je suis arrivé à la conclusion que quand on a mis simplement :

    Disallow: /wp-

     

    alors on a fait le principal.

     

    Avatar de
  4. Pilone3_ le

    Merci pour ton article. Je m’en vais de ce pas éditer mon fichier robots.txt !

    Salutations !

    Avatar de
  5. Erween le

    Tres intéressant, avec moins de fautes d’orthographe ce serait parfait.

    Avatar de
  6. ouguiliang le

    génial… ça va permettre de mieux protéger mon blog ! merci

    Avatar de
  7. charguie le

    Merci pour les infos, juste une question svp :

    Disallow: /comments

    signifie que les commentaires ne sont pas pris en compte, pourquoi ?
    cela peut être un plus pour le référencement, non ?

    Avatar de
    • jonathan le

      C’est la page qui liste tous les commentaires que l’on demande de ne pas indexer.

      Cette page fait du duplicate content par rapport aux commentaires qui sont dans les articles :)

      Avatar de
  8. Alex Laumme le

    Salut, et merci pour ce super fichier robots. C’est vrai que pas mal de ligne qui s’y trouve là on n’y pense pas toujours.

    Mais j’ai un dout, normalement un fichier robots.txt ne doit pas obligatoirement ne contenir aucun espace superflue ou saut de ligne ? 0_o

    Merci en tout cas

    Avatar de
  9. jonathan le

    @ Alex : un fichier robots.txt peut contenir des sauts de ligne.

    C’est mieux pour s’y retrouver =D

    Avatar de
  10. Alex Laumme le

    En même temps quand j’avais commencé on m’avait dit : « Pas d’espace ni saut de ligne » donc je suis resté sur cette idée.

    Merci pour la bonne informations :p

    Avatar de
  11. Daniel Roch le

    Il y a deux points que j’enleverai dans ce fichier robots.txt :

    - Disallow: /wp-content/themes, car certains thèmes peuvent contenir par exemple des images que l’on voudrait référencer (et Google Image n’est pas le seul moteur de recherche d’image au monde).

    - Disallow: /*.wmv$, car on peut très bien vouloir référencer des fichiers vidéos au format wmv.

    Pour le reste, rien à redire. Ce fichier robots.txt pour WordPress est optimisé pour les moteurs de recherche.

    Avatar de
  12. jonathan le

    @ Daniel Roch : En effet, on peut vouloir référencer nos fichiers flash.

    Par contre, quelles genres d’images pourrait-être référencer dans le fichier de thème ? Personnellement, je possède que les images dont j’ai besoin pour le design.

    Avatar de
  13. Chloé@Objectif ventre plat le

    Bonjour,

    Article très intéressant, je vais éditer mon fichier robots.txt, merci.

    Avatar de
Laisser un commentaire
Balises autorisées dans les commentaires: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

Suivre les commentaires de cet article par E-mail