Tutos

Fichier robots.txt optimisé pour WordPress

Le 12 June 2011 par Jonathan B. | 127

Le fichier robots.txt peut être optimisé pour WordPress afin d’aider les moteurs de recherches à indexer le contenu de notre site Internet.

WordPress contient des dossiers sensibles, comme wp-admin ou wp-include, qui ne devraient pas être indexés par mesure de sécurité.

Grâce à un fichier robots.txt optimisé pour WordPress, on indique aux différents moteurs de recherche les dossiers et fichiers à ne pas indexer.

Le fichier robots.txt contient une liste de commandes destinée aux différents spiders d’indexation des moteurs de recherche. Il précise les pages ou dossiers qui doivent ou ne doivent pas être indexés par les robots.

Ce fichier unique se trouve obligatoirement à la racine de votre site Internet et il doit être accessible via cette adresse : www.mon-domaine.com/robots.txt.

Tous les moteurs de recherche commencent l’exploration d’un site en cherchant le fichier robots.txt à cette adresse. Si le fichier n’existe pas, le robot commence son indexation à partir de l’adresse par laquelle il est arrivé.

Voici un fichier robots.txt optimisé pour un site Internet ou blog réalisé sur WordPress.
[pastacode lang=”php” message=”” highlight=”” provider=”manual”]

User-agent: *
# On empêche l'indexation des dossiers sensibles
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?
# On empêche l'indexation des fichiers sensibles
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# On indique au spider le lien vers notre sitemap
Sitemap: https://www.geekpress.fr/sitemap.xml

[/pastacode]

Cet article a été mis à jour il y a 5492 jours - Il n'est peut être plus à jour !

Suivez-moi !

Article écrit par Jonathan B.

Jonathan est le co-fondateur de WP Media, startup connue pour être l’auteur de WP Rocket et Imagify. Il est aussi co-organisateur du WordCamp Lyon et Paris.

127 Commentaires

Silv3r says:

20 June 2011 at 20 h 47 min

Merci pour cet excellent tuto. Il m’a permis d’ajouter à mon robots.txt certaines choses que j’avais omis. Par contre es-tu certain qu’il s’agit bien pour Google AdSense de mettre User-agent: Mediapartners-Google* avec l’étoile * ?
- jonathan says:
  
  20 June 2011 at 20 h 53 min
  
  Oui, je suis certain du détail ;)
  
  Voici LA source qui le confirmera :)
  
  http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=1061943
Silv3r says:

21 June 2011 at 8 h 16 min

Sur la source, ils ne mettent pas d’étoile (*) à la suite de User-agent: Mediapartners-Google. Je ne comprends pas.
noann says:

10 October 2011 at 12 h 07 min

Attention que la directive ‘allow’ n’est pas comprise par tous les moteurs de recherche !

On a beaucoup discuté sur le problème du robots.txt

En ce qui me concerne, pour avoir créé plusieurs sites, avec des robots.txt plus ou moins élaborés, j’ai constaté qu’il y avait peu de différences (il suffit de consulter Google webmaster tools)

Je suis arrivé à la conclusion que quand on a mis simplement :

Disallow: /wp-

alors on a fait le principal.
Pilone3_ says:

17 October 2011 at 17 h 53 min

Merci pour ton article. Je m’en vais de ce pas éditer mon fichier robots.txt !

Salutations !
Erween says:

18 October 2011 at 15 h 38 min

Tres intéressant, avec moins de fautes d’orthographe ce serait parfait.
ouguiliang says:

28 November 2011 at 11 h 27 min

génial… ça va permettre de mieux protéger mon blog ! merci
charguie says:

30 November 2011 at 22 h 13 min

Merci pour les infos, juste une question svp :

Disallow: /comments

signifie que les commentaires ne sont pas pris en compte, pourquoi ?
cela peut être un plus pour le référencement, non ?
- jonathan says:
  
  30 November 2011 at 22 h 18 min
  
  C’est la page qui liste tous les commentaires que l’on demande de ne pas indexer.
  
  Cette page fait du duplicate content par rapport aux commentaires qui sont dans les articles :)
Alex Laumme says:

5 January 2012 at 7 h 22 min

Salut, et merci pour ce super fichier robots. C’est vrai que pas mal de ligne qui s’y trouve là on n’y pense pas toujours.

Mais j’ai un dout, normalement un fichier robots.txt ne doit pas obligatoirement ne contenir aucun espace superflue ou saut de ligne ? 0_o

Merci en tout cas
jonathan says:

5 January 2012 at 12 h 44 min

@ Alex : un fichier robots.txt peut contenir des sauts de ligne.

C’est mieux pour s’y retrouver =D
Alex Laumme says:

5 January 2012 at 12 h 49 min

En même temps quand j’avais commencé on m’avait dit : “Pas d’espace ni saut de ligne” donc je suis resté sur cette idée.

Merci pour la bonne informations :p
Daniel Roch says:

3 February 2012 at 15 h 23 min

Il y a deux points que j’enleverai dans ce fichier robots.txt :

– Disallow: /wp-content/themes, car certains thèmes peuvent contenir par exemple des images que l’on voudrait référencer (et Google Image n’est pas le seul moteur de recherche d’image au monde).

– Disallow: /*.wmv$, car on peut très bien vouloir référencer des fichiers vidéos au format wmv.

Pour le reste, rien à redire. Ce fichier robots.txt pour WordPress est optimisé pour les moteurs de recherche.
jonathan says:

5 February 2012 at 9 h 10 min

@ Daniel Roch : En effet, on peut vouloir référencer nos fichiers flash.

Par contre, quelles genres d’images pourrait-être référencer dans le fichier de thème ? Personnellement, je possède que les images dont j’ai besoin pour le design.
Chloé says:

16 February 2012 at 2 h 27 min

Bonjour,

Article très intéressant, je vais éditer mon fichier robots.txt, merci.
Rogueh says:

16 April 2012 at 4 h 44 min

Salut,
Merci pour les infos, mon robots.txt est maintenant opti !
Rodrigue de business Wordpress says:

20 April 2012 at 11 h 48 min

Merci pour cet article, je met en place direct ;-)
andre says:

13 May 2012 at 9 h 18 min

Bonjour, je suis néophite et je vois pas comment on modifie ce fichier – Fizilla ? je ne trouve pas le fichier dans mon dossier. Pourriez-vous m’orienter. Cordialement
Jonathan says:

13 May 2012 at 15 h 37 min

@Andre : Si le fichier robots.txt n’existe pas à la racine de votre FTP, il faut le créer.

Pour le créer, un editeur de texte basique suffira.
andre says:

13 May 2012 at 19 h 52 min

Merci pour votre réponse, je bloque simplement sur un point de détail. Le fichier s’affiche bien à l’écran. Comment je l’importe dans un éditeur et comment je le réexporte à nouveau sur le site dans la racine.
Qunat le fichier s’affiche à l’écran je ne voie pas l’action qui me permet de le modifier. Je suis pas doué surement. Cordialement
Jonathan says:

13 May 2012 at 23 h 38 min

@Andre : Qu’est ce que vous entendez par “le fichier s’affiche bien à l’écran ?

Le fichier robots.txt s’ouvre avec n’importe quel éditeur de texte. Vous pouvez même le modifier avec Word !
andre says:

14 May 2012 at 8 h 52 min

Dans ma fenêtre internet je compose annoncesboulanger.com/robots.txt, je peux visualiser le contenu du fichier, et c’est à cet étape que je ne vois pas comment le récupérer dans word par exemple.
Par ailleurs sur mon compte GOOGLE WEBMASTER sur deux de mes sites j’ai un message qui me dit que robot.txt “Une page importante est bloquée par un fichier robots.TXT Comment interpréter ce message alors que je n’ai pas encore modifié les parametres du fichier.
Cordialement
Jonathan says:

25 May 2012 at 19 h 44 min

@Andre, il ne faut pas aller sur l’adresse du fichier, mais il faut récupérer le fichier lui-même ! A partir d’un client FTP comme Fizella.

Si vous n’avez pas accès au FTP de votre site, des plugins comme WordPress SEO permettent de modifier le contenu du fichier robots.txt à partir de l’administration.
andre says:

25 May 2012 at 21 h 09 min

Bonjour, Je comprends bien sauf que lorsque je consulte dans la racine avec FIZILLA il n’y a pas de fichier ROBOTS.TXT Je vais voir avec l’autre option que vous proposer.
andre says:

25 May 2012 at 22 h 48 min

Je suis bien à l’endroit que vous citez, J’ai même recopier tous les fichiers avec Fizilla sur mon PC, j’ai fait une recherche, sur le PC, pas de fichier trouvé. Sauf des noms à l’intérieur des fichiers. C’est tout de même curieux, ex-ce qu’il n’y aurait pas d’option d’affichage quelque part ?
Jonathan says:

25 May 2012 at 21 h 48 min

@Andre : vous ne devez pas regarder au bon endroit. Il faut être au niveau ou vous pouvez voir les dossiers “wp-content”, “wp-admin”, “wp-include et il y a aussi pas mal de fichier comme wp-config.php entre autre.

Si vous n’avez pas tout ça à l’endroit où vous regardez, c’est que vous n’êtes pas au bon endroit ;)
Jonathan says:

25 May 2012 at 23 h 56 min

Non, les fichiers .txt ne sont pas invisibles. Si vous êtes au bon endroit, il y a forcément un fichier robots.txt sinon vous ne pourriez pas y accéder à partir d’une adresse URL ^^
Jonathan says:

25 May 2012 at 23 h 59 min

Sinon, voici un plugin qui permet de modifier le fichier robots.txt à partir de l’administration : http://wordpress.org/extend/plugins/wp-robots-txt/
andre says:

26 May 2012 at 8 h 41 min

Bonjour, j’ai réussi à mettre à jour avec le plugin, merci pour tout.
Cordialement,
Andre
Kittin says:

2 July 2012 at 10 h 52 min

Bonjour,

J’ai utilisé le même fichier robots placé à la racine de mon blog. Cependant dans Webmaster tools il m’indique “Impossible d’explorer votre site, car nous n’avons pas pu accéder au fichier robots.txt.robots.txt.”
Auriez-vous une réponse?
Jonathan Buttigieg says:

2 July 2012 at 12 h 05 min

@Kittin : Votre fichier s’appel robots.txt.robots.txt, il faut que se soit uniquement robots.txt ;)
Kittin says:

2 July 2012 at 12 h 32 min

Merci pour votre réponse mais mon fichier s’appelle bien robots.txt et dans mon google webmaster tools il indique « Impossible d’explorer votre site, car nous n’avons pas pu accéder au fichier robots.txt.robots.txt. »

Tel que cité dans mon compte webmaster tools. Le fichier à la racine est bien nommé robots.txt uniquement… alors pourquoi une erreur dans le webmaster tools?

Si vous pouviez m’éclairer et peut être d’autres dans le même cas que moi :)
Jonathan Buttigieg says:

2 July 2012 at 13 h 34 min

@Kittin : il suffit de tester l’adresse votre-site.com/robots.txt pour savoir si le fichier existe bien :)
Kittin says:

2 July 2012 at 22 h 33 min

Oui il existait bien à l’adresse malgré ça dans google webmaster tools il indique une erreur, étrange. Du coup j’ai retiré le fichier robots.txt, j’attends de voir si l’erreur persiste :)
VIANY HOAREAU says:

23 July 2012 at 16 h 46 min

Bonjour !

Je viens de réaliser mon fichier robots.txt grâce au votre! Merci donc au passage! ;)

Petite question : est-ce qu’il est possible de faire un disallow sur un fichier directement? Fichier qui se trouve au même niveau que les dossiers wp-admin ou includes….

Je pense mettre cette ligne :
Disallow: /mapagesecrete.php

C’est une page qui ne doit pas être indexée.

Est-ce que cela fonctionnerait?

Merci!
Jonathan Buttigieg says:

27 July 2012 at 21 h 08 min

Pour un fichier, il faut préciser le chemin complet menant vers lui. Par exemple, s’il se trouve dans un dossier “sensibles” présent à la racine du site et que le fichier se nomme “fichier.html”, il faut ajouter la ligne Disallow: /sensibles/fichier.html qu’il ne soit pas pris en compte par les moteurs de recherche.
genetech says:

30 July 2012 at 18 h 13 min

Bonjour,
robots.txt interessant
mais si on met
Disallow :/*? le Disallow/*?* est inutile
Allow: /wp-content/uploads n’est pas bloqué donc déjà autorisé (parano?)

Disallow: */feed comprend deja le /feed celui-ci devient inutile

petit netoyage:
Disallow: /cgi-bin
Disallow: /wp-content/
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?
Allow: /wp-content/uploads

et bein pour çà on voit plus clair ^^
Jonathan Buttigieg says:

30 July 2012 at 21 h 27 min

Je suis d’accord pour le Allow: /wp-content/uploads et la suppression de Disallow: */feed , mais pas avec le reste.

Disallow :/*? permet d’éviter une url de ce type : exemple.com/index.php?

tandis que Disallow/*?* permet d’éviter une url de ce type : exemple.com/index.php?var=1&var=2

C’est donc une directive différente et complémentaire de la première.
Fragger says:

1 August 2012 at 11 h 43 min

Bonjour,

il manque une ligne
User-agent: *
Disallow: /wp-login.php*
Jonathan Buttigieg says:

2 August 2012 at 23 h 21 min

@Fragger : Tout à fait, c’est une bonne remarque. En plus, il est présent dans le robots.txt du site =_=

Merci de m’avoir fait pensé à mettre à jour l’article avec cette indication !
Lucila Guerrero says:

7 August 2012 at 17 h 26 min

Bonjour,
Merci beaucoup pour l’article. J’ai une question.
Je veux pas répertorier mes photos, aucune de mes photos.
Je sais pas bien comment je devrais ajouter les consignes.

Pour:
User-agent: *
Disallow: /wp-content/uploads
Disallow: /wp-content/uploads/2012
Disallow: /wp-content/uploads/2012/
Disallow: /wp-content/uploads/2012/04
Disallow: /wp-content/uploads/2012/05

Ça serait comme ça? Je dois specifier chaque repertoire?

et pour Google, ça serait bien je mets:

User-agent: googlebot
User-agent: slurp
User-agent: msnbot
Disallow : /*.jpg$

Ça fait longtemps que j’essaye et ça ne marche pas bien. Je vous remercie infiniment si vous pouvez m’aider.

merci !
Benzaky.com says:

10 August 2012 at 19 h 59 min

merci pour les information : )
Jonathan Buttigieg says:

10 August 2012 at 23 h 50 min

@Lucila : Par défaut le contenu du dossier wp-content/uploads est indéxé par les robots si il n’y a pas Disallow: /wp-content dans le fichier.
Lucila Guerrero says:

10 August 2012 at 23 h 59 min

merci de m’avoir répondu

alors je dois ajouter la ligne:
Disallow: /wp-content

J’aurais une autre question, pour finir de comprendre:

Quelle est la différence entre écrire:

Disallow: /wp-content

et

Disallow: /wp-content/

merci encore
Jonathan Buttigieg says:

11 August 2012 at 0 h 12 min

@Lucila : Attention, c’est Disallow: /wp-content/uploads

J’ai oublié d’ajouter uploads dans la ligne ^^
Wiloooo says:

15 August 2012 at 15 h 23 min

merci pour ces astuces, mais depuis que j’ai mis en place votre texte robots.txt mes revenus adsense baissent ? :(
Jonathan Buttigieg says:

15 August 2012 at 22 h 49 min

@wiloo : je ne pense pas que cela influe sur les revenus adsence puisque les publicités sont toujours visibles par les internautes.
Manon de FizzyBeauty says:

20 August 2012 at 10 h 54 min

Bonjour,
J’ai crée mon fichier robots, mais je dois le télécharger à la racine du blog.
Mais question con c’est quoi la racine?
Si je suis chez OVH c’est la dessus?
Merci
Manon de FizzyBeauty says:

20 August 2012 at 11 h 07 min

ok Merci!!
Manon de FizzyBeauty says:

20 August 2012 at 11 h 10 min

J’ai fireftp sur mon ordi, ça marche bien pareil?
Manon de FizzyBeauty says:

20 August 2012 at 11 h 30 min

Merci beaucoup!!Votre réponse (super rapide)m’a bien aidé!!!
Jonathan Buttigieg says:

20 August 2012 at 11 h 03 min

@Manon : La “racine” correspond à l’endroit où sont stockés les fichiers de votre site. Il faut utiliser un client FPT (Fizella ou autre) pour pouvoir ajouter/supprimer des fichiers.
Jonathan Buttigieg says:

20 August 2012 at 11 h 26 min

@Manon : Je ne le connaissais pas, mais oui c’est bien un client FTP.
Johnny says:

23 August 2012 at 16 h 00 min

Très bien pratique, je rajouterai, pour ceux qui ont une recherche du type “www.monsite.com/search/mots-clés” :

User-agent: *
Disallow: /search
Britain says:

16 October 2012 at 12 h 49 min

merci pour ce tuto, que j’ai trouvé par Google, en cherchant sur le moteur de recherche du site robots ou robots.txt o résultat, bizarre.
Je voulais savoir pour exclure une page, dois mettre http://ww.nomdusite.fr/contact ou juste /contact ?
Merci
Jonathan Buttigieg says:

16 October 2012 at 13 h 33 min

@Britain : Disallow: /contact suffira
Rodrigue says:

20 October 2012 at 18 h 46 min

Ca fait deux fois que je tombe sur le même article, décidément…

Avec le recul je constate que tout se déroule bien et que mon fichier robot passe bien via Google ^^ Thank a lot
Jonathan Buttigieg says:

20 October 2012 at 19 h 21 min

@Rodrigue : Merci pour le retour d’expérience :)
PERRIER says:

1 November 2012 at 10 h 23 min

J’ai un souci avec l’apparition du site dans Google : lorsque je saisi “syscoach.fr” dans la barre de recherche Google, j’obtiens ce résultat :

La description de ce résultat n’est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

Je n’ai pas réussi à trouver le fichier Robots.txt dans Filezilla. J’ai donc utiiser le plugins proposé par wordpress pour le modifier :
wp-robots-txt

J’ai apporté les modifications suivantes :
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
User-agent: Googlebot-Image
Disallow:
Allow: /*
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
User-agent: *
Disallow: /wp-login.php*

Lorsque je saisi l’adresse de la page : http://www.syscoach.fr/robots.txt, le fichier est bien mis à jour, mais le résultat dans Google est toujours le même.

Existe-t-il un autre fichier robots.txt géré par OVH ?
Pourquoi mon site n’est pas accessible ?

merci pour votre réponse et bonne journée.

cordialement
Jonathan says:

2 November 2012 at 18 h 33 min

@Perrier : C’est la 1ère fois que je vois ce genre de problème et je ne sais pas du tout d’où cela peut provenir :/
Perrier says:

3 November 2012 at 9 h 43 min

Bonjour,
voici la réponse d’OVH :
vous devez en plus de cela referencier votre site.
Ce service n’est pas proposé par OVH.
Je vous invite à vous rendre sur les forums et site de referencement pour plus de détails.
http://forum.ovh.net/
http://www.webrankinfo.com/

Nous restons à votre disposition pour toute information complémentaire.
—————————–
J’ai donc du oublier une étape ! mais je ne vois pas laquelle;
Merci de votre aide.
cdlt.
J. Perrier
Flobogo says:

13 January 2013 at 18 h 43 min

Bonjour,
J’ai suivi vos indications pour créer et installer mon fichier robots.txt
Puis, j’ai utilisé ce site pour le vérifier : http://tool.motoricerca.info/robots-checker.phtml
Il indique (en anglais, mais je traduis) : “Le caractère “*” dans les noms de fichiers n’est pas pris en charge par (tous) les agents utilisateurs visés par ce bloc de code. ”
Que faut-il en penser ?
De même, il indique qu’il ne doit pas y avoir de ligne vide ; donc, j’ai mis les commentaires avec # — à la suite de la dernière ligne de chaque partie. Enfin, je ne comprends pas l’utilité d’autoriser Google-Images à accéder au répertoire wp-content/uploads, puisqu’on ne lui a pas interdit auparavant ;)
Merci d’avance de votre réponse pour m’éclairer
Jonathan says:

13 January 2013 at 20 h 57 min

@Flobogo : En fait, c’est assez simple : ce ne sont que des “recommandations”. Ce n’est pas grave si on s’autorise de faire des sauts de ligne…
anna says:

22 January 2013 at 0 h 30 min

bonjour, merci pour cet article, je me rends compte que j’ai pas grand chose dans mon robot a part intediction pour les fichiers d’admin et wplogin.
J’ai fait une grosse connerie sur mon blog, je pensais bien faire en ajoutant %%category%% devant le titre du post dans mes permaliens.
Mais du coup je me retrouve avec plein d’erreurs 404 de pages non trouve dans google tools. Maintenant j’ai remis comme avant donc directement /%postname%/ et j’ai corrige les articles dans google
Maintenant je voudrais desindexer les pages http://www.monsite.com/category/posttitle
et garder uniquement http://www.monsite.com/posttitle
Mais vu que je ne comprend pas tout dans le texte robot, alors ma question est si je met : Disallow: /category/*/*
esce que ca desindexe les category mais garde les * c’est a dire les posttitle ? Pourquoi il y a 2 etoiles ?
Si c’est pas le cas, pourriez vous m’indiquer comment faire si vous avez le temps SVP
Merci pour votre site il y a plein de conseils qui vont me servir :)
Jonathan Buttigieg says:

23 January 2013 at 13 h 55 min

Le robots.txt ne permet d’indiquer à un robot ne sert pas vraiment à désindéxer des pages. Il permet simplement de guider les robots vers les adresses que l’on souhaite indéxer.

Donc dans votre cas, il faut faire des redirections en plus des directives du fichier robots.txt
anna says:

24 January 2013 at 12 h 01 min

merci bcp pour votre reponse Jonathan
julie says:

24 January 2013 at 14 h 38 min

bonjour,
j’ai aussi rajouter ça dans mon fichier robots.txt
Disallow: /search/
Disallow: /?s=
ce qui permet d’éviter l’indexation des pages de recherche
anna says:

24 January 2013 at 16 h 07 min

autre question
es-ce quil faut allow le googlebot-mobile ? je viens de le voir dans mes outils webmaster
Jonathan Buttigieg says:

24 January 2013 at 21 h 12 min

@Julie : la directive Disallow: /?s= ne sert à rien car il y a déjà Disallow: /*? qui permet de ne pas prendre en compte toutes les URLs qui se terminent par un ? et des variables.

@Anna : Je ne peux pas vous répondre avec certitude, mais je pense que cela peut valoir la peine d’ajouter Google Mobile.
Flobogo says:

1 February 2013 at 19 h 00 min

Merci pour la réponse du 13 janvier ;)
nico says:

1 February 2013 at 22 h 41 min

Bonjour et merci pour vote tuto.
J’ai déplacé toute mes images de mon site wordpress vers un sous-domaine
(cdn.monsite.com/images) en prenant soin de bien redirigé dans mon fichier htaccess. Une semaine plus tard, je m’apercevois sur webmastertools que toute mes images ont été dexindexé. Je voulais savoir si il y’avait une commande a ajouté dans le robot.txt pour indexer un sous domaine, ou bien si ca se fait automatiquement. merci
Jonathan Buttigieg says:

1 February 2013 at 23 h 41 min

@Nico : Au risque de me répéter, mais le fichier robots.txt ne permet de pas désindexer des pages. Il donne uniquement un guide de chemin à suivre aux robots.
nico says:

2 February 2013 at 4 h 31 min

merci et désolé pour les fautes de frappes de mon précédent message
Gael says:

20 February 2013 at 11 h 02 min
Bj Jonathan et merci pour cet article.
j’ai un site auquel j’ai rajoute dernierement un blog WP. Pour ce, j’ai crée un repertoire “Blog” a la racine de mon site et mit dedans tout le contenu de WP.
Pour maintenant mettre en application vos recommandations, dois-je :
– créer un nouveau fichier Robots.txt que je vais mettre dans mon repertoire “Blog” (avec tout le contenu que vous avez decrit)
– ou bien completer mon fichier “Robots.txt” existant deja ? (et dans ce cas, puis-je simplement ‘rajouter’ “/Blog/” devant chaque ligne decrite ? exemple :
```
Disallow: /blog/wp-login.php
Disallow: /blog/wp-admin
Disallow: /blog/wp-includes
Disallow: /blog/wp-content/plugins
Disallow: /blog/wp-content/cache
Disallow: /blog/wp-content/themes
Disallow: /blog/category/*/*
Disallow: /blog*/trackback
Disallow: /blog*/feed
Disallow: /blog*/comments
Disallow: /blog/*?
```
jb says:

20 February 2013 at 11 h 28 min

@Gael,

Je te conseille de compléter ton fichier robots.txt actuel (le robots se met toujours à la racine). Effectivement tu as juste à rajouter /blog/ aux directives.
Gael says:

20 February 2013 at 16 h 53 min
Ok, merci. Petite question de syntaxe, dois-je ecrire :
```
Disallow: /blog*/comments
Disallow: /blog/*?
Disallow: /blog/*.php$
```
ou plutot
```
Disallow: /blog/*/comments
Disallow: /blog//*?
Disallow: /blog//*.php$
```
Stephane Photographe de mariage says:

24 February 2013 at 21 h 03 min

Un grand merci à Jonathan et aux divers participants, je viens de mettre mon fichier à jour grâce au plugin indiqué. Plus qu’à attendre de voir le comportement de google qui me disait avoir un problème avec mon fichier auparavant et ne voulait indexer le site. Stephane.
Belrose says:

1 March 2013 at 13 h 59 min

Bonjour,
Article très intéressant sur ce fameux fichier.

Mais est ce que ce fichier peut contenir des lignes vierges (saut de ligne) ?

Fabrice.
Jonathan Buttigieg says:

1 March 2013 at 14 h 02 min

@Belrose : Il est conseillé de ne pas en mettre, mais le fichier est tout de même compris s’il contient des sauts de ligne.
Belrose says:

2 March 2013 at 12 h 16 min

OK @Jonathan, merci pour le conseil, je vais le suivre !
;-)
Graphiouest says:

5 March 2013 at 16 h 00 min

Bonjour

J’utilise Google XML Sitemaps qui me conseille de laisser le fichier robots.txt virtuel et de ne pas placer de fichier robots.txt à la racine

Est ce que je fais bien?
Jonathan Buttigieg says:

5 March 2013 at 16 h 02 min

@Graphiouest : Personnellement, je vous conseille de ne pas suivre la recommandation du plugin et de placer le fichier robots.txt à la racine de votre FTP.
Graphiouest says:

5 March 2013 at 16 h 08 min

Merci Jonathan
Lije Creative says:

18 March 2013 at 15 h 26 min

Je te conseille de supprimer la ligne 2 car elle invalide toutes les lignes suivantes.
Il faut mieux mettre le commentaire avant les directives pour éviter que cela pose problème. (vu au seo campus d’il y a quelques jours)

Edit admin : merci d’éviter les pseudos à la con comme “Créer site Strasbourg” sans mettre de nom/pseudo avant. Il y a Keywordluv sur ce site, merci de l’utiliser pour poser une ancre.
Jonathan Buttigieg says:

18 March 2013 at 15 h 31 min

@Lije Creative : La ligne correspond à un saut de ligne, donc on part du principe qu’il ne faut pas du tout en mettre ?
Jean-Sam says:

17 April 2013 at 22 h 02 min

Bonsoir, j’ai vu des choses intéressantes dans les commentaires, comme la gestion du duplicate content par exemple.
Sinon, je ne vois vraiment pas l’intérêt de “disallow” tout ce que tu préconises. Google indexe des milliards de pages, un peu plus ou un peu moins… Se pose ensuite la question du hacking, et franchement, je ne pense pas qu’un hacker se repose beaucoup sur Google pour trouver tes pages sensibles.
Sécuriser un site, oui. “Optimiser” l’indexation ? Franchement ? Y’a plus important.
Jonathan Buttigieg says:

17 April 2013 at 22 h 43 min

“je ne pense pas qu’un hacker se repose beaucoup sur Google ”

C’est mal pensé alors… A votre avis, ils font comment les hackers pour trouver les sites contenants une faille dans un plugin ?

Et qu’est-ce qui peut être plus important que faciliter l’indexation (autre le référencement pur et dur) ?
hitthemonkey says:

20 April 2013 at 16 h 54 min

Bonjour,

Je suis tombé sur votre site en cherchant quoi mettre sur mon robots.txt et j’ai fait la mise à jour de mon fichier mais je n’ai plus accès à mes articles en cliquant dessus. Mon navigateur me donne une reponse 400 BAD request.

j’ai exactement le même robots que l’article.
Jonathan Buttigieg says:

20 April 2013 at 16 h 56 min

@hitthemonkey: Vous êtes sûr d’avoir modifier le bon fichier ? Car un fichier robots.txt n’a aucune influence sur l’accès des pages d’un site Internet. Ce fichier ne peut pas provoquer d’erreur 404, 500, ETC… !
mat says:

28 April 2013 at 12 h 38 min

Merci ça a résolu les erreurs pour mon site http://www.avosavis.fr pour lequel j’avais des erreurs dans webmaster tools. Après quelques jours d’attentes, Google n’a plus indexé mes pages wp-login
Thierry says:

3 May 2013 at 10 h 28 min

Merci pour cet éternel rappel du B-A BA du référencement ! J’y retombe depuis plusieurs années dés que j’ai besoin de générer mon fichier robots “standard” pour WP, il m’est donc très utile, d’autant qu’il semble évoluer au gré des commentaires.
TiDJ says:

30 May 2013 at 11 h 02 min

Bonjour, j’ai une petite question qui peut sembler étrange, mais si jamais on a un domaine dans l’indication du site map, qui n’est pas celui du site actuelle, qu’est-ce que ça fait ?

Je m’explique, en gros, j’ai 3 sites avec le même robots.txt, j’aimerai donc mettre 3 “Sitemap:”, exemple :

Sitemap: http://www.domaine1.fr/sitemap-1.xml
Sitemap: http://www.domaine2.fr/sitemap-2.xml
Sitemap: http://www.domaine3.fr/sitemap-3.xml

Il n’y a pas de problème ?
- Jonathan Buttigieg says:
  
  30 May 2013 at 11 h 04 min
  
  Non, il n’y a qu’à regarder le fichier de Google :) http://www.google.fr/robots.txt
TiDJ says:

30 May 2013 at 14 h 07 min

Merci bien, tu m’enlève une sacré écharde du pied :)

C’est ça d’avoir un client qui veux gérer un multiboutique sans passer à la 1.5 de Prestashop >< :)

( Au passage, je sais que c’est pas le bonne endroit pour demander ça mais, y’aurai pas un tuto pour apprendre comment générer les avatars avec les pseudo comme dans vos commentaires ? )
Jonathan Buttigieg says:

30 May 2013 at 23 h 23 min

@TiDJ : Pour les commentaires, j’utilise ceci : http://texatar.jabwire.com/
www.lije-creative.com says:

11 June 2013 at 22 h 15 min

Petite remarque par rapport à ton code : Allow n’existe pas. Le fichier robots.txt sert à interdir l’accès, pas à autoriser. Par principe, tout ce qui n’est pas interdit est autorisé. Si tu veux par exemple dire à Google Image de tout indéxer, ce code suffit :

User-agent: Googlebot-Image
Disallow:

cf http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449
“Le fichier robots.txt le plus simple a recours à deux règle”
Jonathan Buttigieg says:

11 June 2013 at 22 h 17 min

Hum, du coup pourquoi Google utilise lui-même Allow ? http://www.google.fr/robots.txt
LIJE Creative says:

11 June 2013 at 22 h 35 min
Arf, Google ne fait rien de bien oO
Je n’avais jamais cherché à regarder le robots.txt de Google.fr lol
Je vois qu’il fait allow une page d’une section en disallow :
```
Disallow: /reader/
Allow: /reader/play
```
On en avait parlé au SEO Campus à Paris, la mention Allow n’existe pas dans la documentation mais elle fonctionne en pratique.

Ah au fait, une ligne vide entre le user-agent ciblé et les règles résulte à ne pas prendre en compte ces règles normalement.
Jonathan Buttigieg says:

12 June 2013 at 9 h 14 min

@LIJE Creative: Donc pour ne pas avoir de problème, il faut supprimer les sauts de ligne ?
Jérôme says:

12 June 2013 at 11 h 01 min

Bon, je suis quand même un peu déçu sur le coup. Si tu mets un saut de ligne, ça passe, si tu mets tout sur une ligne, ça ne passe pas :(

FIY : https://twitter.com/mattcutts/status/344737243065376769
En fait, il ne réponds pas mais j’ai testé directement dans les GWT.
info- jardinage says:

7 July 2013 at 0 h 55 min

Merci pour l’astuce :)
al says:

27 July 2013 at 14 h 05 min

Bonjour, merci beaucoup pour cet article.
Je suis débutant, et je viens de terminer un site vitrine, ou portefolio.
En réalité j’expérimente en même temps les méandres de wordpress, et ce site n’est destiné qu’à moi.
J’ai une question assez étrange peut-être, car je ne l’ai trouvée nulle part, la voici :
Je voudrais faire en sorte que les visiteurs ne puisent entrer sur mce site que par l’index.php; Tous mes articles se trouvent sur cette page. je voudrais donc que seule la racine du site soit visible au niveau des navigateurs. Est-ce possible?

Merci
stelf says:

5 September 2013 at 11 h 28 min

Bonjour Jonathan,

Concernant le plugin Wp-Rocket faut-il empecher l’indexation du cache ?
wp-content > wp-rocket-cache

Merci
Jonathan Buttigieg says:

5 September 2013 at 11 h 32 min

@stelf: Oui, il serait préférable de l’indiquer dans le fichier robots.txt. D’ailleurs, que ce soit les fichiers de cache de WP Rocket ou d’un autre système de cache, il faudrait le faire.
darknote says:

28 September 2013 at 19 h 57 min

Bonsoir,

peut-on ajouter
Crawl-delay: 1
et est ce utile?
Merci
Jonathan Buttigieg says:

29 September 2013 at 11 h 43 min

@ darknote: Je pense que ce genre de directive est totalement inutile.
darknote says:

29 September 2013 at 15 h 22 min

ce n’est pas fait pour ralentir MSNbot qui selon certaines personnes ralentir un site?
Jonathan Buttigieg says:

2 October 2013 at 9 h 09 min

@darknote: Je n’ai jamais entendu parler de ce bot là.
darknote says:

2 October 2013 at 12 h 52 min

je l’ai lu sur différents sites.
http://robots-txt.com/ressources/robots-txt-bing/
http://kubx.fr/ralentir-msn-bot-avec-crawl-delay-robots-txt-881/
etc..
Epicture says:

29 October 2013 at 5 h 23 min

J’ai lu quelque part qu’indiquer l’adresse du sitemap (Seomix pour ne citer personne). Ils disent que ça ne sert pas grand chose.. Bon après, cela reste un détail évidemment.
Jonathan Buttigieg says:

29 October 2013 at 8 h 31 min

@Epicture: Si le sitemap ne sert à rien, j’ai envie de dire : Pourquoi Google lui même le fait ? http://www.google.fr/robots.txt :)
darknote says:

30 October 2013 at 11 h 57 min

Le souci de seomix c’est qu’il ne compte que sur les moteurs de recherche, Google, Yahoo et bing, 3 des moteurs qui ont un système d’outils de webmaster où il faut chez eux, indiquer dans leurs système l’adresse de voter sitemap.xml mais li y a d’autres moteurs de recherches et cela ne fait pas de mal de le mettre dans robots.txt.
Spiral says:

11 November 2013 at 15 h 12 min

En effet, bien construire un robots.txt c’est important et utile pour les vrais bon les 3 gentils robots sympathiques, ceux qui eux respectent (plus ou moins) les directives de robots.txt. Ainsi on évitera de nombreuses requêtes inutiles et pompeuses de ressources.

Mais comme le dit Darknote, il n’y a pas que cela, il y a aussi les petits, les sans grades… Et puis les aussi les AUTRES !

Il faut savoir, que tout bon hacker ou badbots qui se respecte va aussi le scruter avec attention et gourmandise ; et donc de fait on le renseigne sur pas mal de chose (ceci est valable pour tout type de site, pas que WP).

Une parade ou “astuce” est de déclarer un dossier piège à mouche, une sorte de trappe alléchante pour le faire tomber dedans.

Par exemple : Disallow: /wp-private-2013
Ou bien le nom que vous voulez du moment que c’est attractif, un bon pot à miel, bien collant… A vous être inventif.

Et ensuite ?
Et bien cela se passe au niveau administration serveur, il faut définir des règles efficaces de bannissement (regular expression), par exemple avec Fail2ban / IPtables.

Le visiteur malicieux, à priori sera assez tenté d’aller voir ce qui se trouve dans ce dossier (qui ne doit pas exister sur votre site) ; d’où une erreur Apache, que la règle idoine de F2B retrouve dans les logs ;-)

A la première tentative d’accès à /wp-private-2013 => Bannissement minimum 24h de l’IP !!!

D’une manière générale, pour ceux qui ont des privilèges suffisant sur leur hébergement, il est toujours très important de sécuriser un serveur en amont des sites, cms, bases…

Spiral.Debian – Admin.dev.secure.
noaneo says:

9 December 2013 at 19 h 50 min

Bonsoir,
j’ai voulu tester le robots.txt qui est un clone de celui de votre article sur ce site
http://www.frobee.com/robots-txt-check

et résultat en anglais, donc pour moi, je ne comprends rien.
Mais il m’indiqué 1 Error 26 Warnings 0 Notices

Line 4:
Missing User-agent directive! Found Disallow
Each rule record has to start with at least one User-agent statement. Blank lines delimit rule records and may not be used between User-agent and Disallow statements.
2: 3: # On empêche l’indexation des dossiers sensibles 4: Disallow: /cgi-bin 5: Disallow: /wp-login.php 6: Disallow: /wp-admin
Line 11:
Wildcard * in Disallow directive!
Besides the major search engines, most crawlers don’t support wildcard matches and will most likely misunderstand or ignore them.
9: Disallow: /wp-content/cache 10: Disallow: /wp-content/themes 11: Disallow: /category/*/* 12: Disallow: */trackback 13: Disallow: */feed
Line 12:
Wildcard * in Disallow directive!
Besides the major search engines, most crawlers don’t support wildcard matches and will most likely misunderstand or ignore them.
10: Disallow: /wp-content/themes 11: Disallow: /category/*/* 12: Disallow: */trackback 13: Disallow: */feed 14: Disallow: */comments
Line 13:
Wildcard * in Disallow directive!
Besides the major search engines, most crawlers don’t support wildcard matches and will most likely misunderstand or ignore them.
11: Disallow: /category/*/* 12: Disallow: */trackback 13: Disallow: */feed 14: Disallow: */comments 15: Disallow: /*?

problème ou pas ?
Merci
Rakabulle says:

27 January 2014 at 20 h 35 min

J’ai aussi un problème avec mon fichier robots.txt.
Je ne comprends pas pourquoi GoogleBot ne passe plus sur le site dpeuis le 19/01/2014.

Ci-dessous le contenu de mon fichier .txt. J’ai peut-être rajouté quelques chose qui bloque l’accès. Aidez moi, je ne sais plus quoi faire.

User-agent: *
Disallow: /*?
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Allow: /wp-content/uploads
Disallow: */trackback
Disallow: /*/feed
Disallow: /*/comments
Disallow: /cgi-bin
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.cgi$
Sitemap: http://keewiweb.com/sitemap_index.xml

Merci d’avance.
Rosa says:

10 March 2014 at 12 h 43 min

Bonjour à tous,

@Jonathan

Je me suis inspirée de beaucoup des tutos du site pour les appliquer au mien et je suis contente du résultat. Donc merci pour ces tutos bien expliqués (autant que ceux de Julio de BoiteaWeb dont j’aime également ça façon d’expliquer les choses clairement !), même une vraie novice comme moi peut y arriver…

Cependant, j’ai un petit souci avec ce tuto-ci. Quelqu’un m’a fait remarqué que mon fichier robots.txt contenait des erreurs en me donnant ce lien pour vérifier : http://tool.motoricerca.info/robots-checker.phtml

J’ai donc fait la vérification et effectivement de la ligne 11 à 29, il y a (selon l’outil d’analyse) des erreurs. J’ai ce message d’erreur en conclusion (si je peux dire ça) :

The following block of code contains some errors. You specified both the generic user-agent “*” and specific user-agents for this block of code; this could be misinterpreted. You specified both a generic path (“/” or empty disallow) and specific paths for this block of code; this could be misinterpreted. Please, remove all the reported errors and check again this robots.txt file.

WARNING: The tool has found some directory paths that don’t include a trailing slash character.
Since a missing trailing slash can be both a deliberate decision or an error, and since this tool can’t ipotize the real intentions of the webmaster, here follow some clarifications that could prevent a potential problem:
The following command will disable just the directory “private” and all its contents:
Disallow: /private/
…while the following command will disable both the “private” directory and any file or directory path starting with the text “/private” (so “/private-eye.html”, “/privateroom/page.html”, etc.):
Disallow: /private
Please be sure to use the correct syntax, according to your needs.

[Le bloc de code suivant contient des erreurs. Vous avez indiqué à la fois le user-agent générique “*” et user-agents spécifiques pour ce bloc de code, ce qui pourrait être mal interprété. Vous avez spécifié un chemin à la fois générique (“/” ou vide refuser) et des chemins spécifiques pour ce bloc de code, ce qui pourrait être mal interprété. S’il vous plaît, retirez toutes les erreurs signalées et vérifier à nouveau ce fichier robots.txt.

ATTENTION: L’outil a trouvé des chemins de répertoire qui ne comprennent pas un caractère de barre oblique.
Depuis un slash manquant peut être à la fois une décision délibérée ou d’une erreur, et que cet outil ne peut pas ipotize les intentions réelles du webmaster, ici suivre quelques précisions qui pourraient empêcher un problème potentiel :
La commande suivante permet de désactiver simplement le répertoire “privé” et tout son contenu :
Disallow: / private /
… alors que la commande suivante permet de désactiver à la fois le répertoire “privé” et un fichier ou un chemin d’accès commençant par le texte “/ privé” (si “/ privé eye.html”, “/ privateroom / page.html”, etc .):
Disallow: / privé
S’il vous plaît assurez-vous d’utiliser la syntaxe correcte, en fonction de vos besoins.]

Je voulais savoir ce que tu en penses ?
Jonathan Buttigieg says:

15 March 2014 at 18 h 45 min

@Rosa : J’en pense que je n’ai jamais eu de problème d’indexation avec le code fournit dans l’article :)
Zakaria says:

2 July 2014 at 15 h 10 min

Merci Mr.Jonathan pour cette tuto ^ ^
Andlil says:

22 July 2014 at 14 h 37 min

Google accorde de l’importance depuis 2012 au rendu utilisateur donc interdire l’indexation des js et surtout les css n’est plus une bonne idée à mon avis (cf : explorer une page comme google boot dans webmaster tool
Jonathan says:

17 August 2014 at 20 h 12 min

Et dans le cas d’un multiste en sous-domaine le robots.txt ne change pas je pense mais doit-on indiquer les sitesmaps de chaque sous-domaines ?
Jonathan Buttigieg says:

8 September 2014 at 11 h 47 min

@Jonathan: Je ne sais pas du tout. Il faudrait demander à quelqu’un de plus confirmé au niveau SEO que moi.
OlalaWeb says:

17 September 2014 at 18 h 18 min

Est-ce que disallow wp-content empêche aussi l’affichage des médias en dehors du site (ex sur Google image) ?

Si non,comment faire pour empêcher totalement l’accès aux contenus de wp-content ?
Jonathan Buttigieg says:

30 September 2014 at 4 h 26 min

@OlalaWeb: Non, le disallow empêche l’indexation, mais pas l’affichage dans le navigateur ;)
MonsieurUntel says:

8 December 2014 at 17 h 00 min

Bonjour,

une question :
si le blog wordpress n’est pas à la racine du site mais dans un dossier.
faut-il tout de même mettre le robots.txt à la racine ?
soulfree says:

12 March 2015 at 16 h 27 min

Bonjour,
il ne faut pas bloquer CSS et JS, tester là
https://www.google.com/webmasters/tools/mobile-friendly
vous verrez que cela pose un problème, à chaque fois cela me dit que l’accès à style.css est bloqué par le robots.txt, du coup le site ne passe pas, regarder pour votre site
https://www.google.com/webmasters/tools/mobile-friendly/?url=http%3A%2F%2Fwww.geekpress.fr
Martin says:

10 June 2015 at 3 h 56 min

Bonjour,

J’ai un site auquel j’ai rajouter un blog WP. J’ai crée un répertoire « Blog » a la racine de mon site et j’ai mit dedans tout le contenu de WP.

Je voudrais savoir ou je devrais rajouter le mot « Blog » dans le fichier robots.txt ?

Pouvez-vs me refaire le code suivant au complet avec le mot « Blog » inserer au endroit qui faut qui sois inserer dans tout le code parce que j’ai peur de faire une erreur. Je suis novice donc peut d’experience.

Merci !

————

User-agent: *
# On empêche l’indexation des dossiers sensibles
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?
# On empêche l’indexation des fichiers sensibles
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Darknote says:

23 January 2016 at 20 h 58 min

Bonsoir,
Je me demande si votre exemple robots.txt est toujours valable, je vois qu’il ne faut ps bloquer JS et Css comme indiqué sur ce site
https://yoast.com/google-panda-robots-css-js/
mais l me semble que vous mettez disallow pour les 2, merci par avance

Fichier robots.txt optimisé pour WordPress

127 Commentaires

Dans <img src="https://www.geekpress.fr/wp-content/themes/wp-spread/img/cats/picto-tutos.svg" alt="Catégorie Tutos" class="trending__titleicon"> Tutos

WP Umbrella : Un super plugin de Monitoring pour WordPress

Les nouveautés de Gutenberg 6.1 : le mouvement

Booster votre référencement d’image avec le plugin WordPress ImageSEO

Publiés récemment

Les plus consultés

Comment mettre en ligne un site WordPress local

Apprendre WordPress : Par où commencer ?

Pourquoi devriez-vous vous spécialiser WordPress ?

Dans Tutos