Tout savoir sur WordPress
Tutoriel WordPress

Fichier robots.txt optimisé pour WordPress

Le fichier robots.txt peut être optimisé pour WordPress afin d’aider les moteurs de recherches à indexer le contenu de notre site Internet.

WordPress contient des dossiers sensibles, comme wp-admin ou wp-include, qui ne devraient pas être indexés par mesure de sécurité.

Grâce à un fichier robots.txt optimisé pour WordPress, on indique aux différents moteurs de recherche les dossiers et fichiers à ne pas indexer.

Le fichier robots.txt contient une liste de commandes destinée aux différents spiders d’indexation des moteurs de recherche. Il précise les pages ou dossiers qui doivent ou ne doivent pas être indexés par les robots.

Ce fichier unique se trouve obligatoirement à la racine de votre site Internet et il doit être accessible via cette adresse : www.mon-domaine.com/robots.txt.

Tous les moteurs de recherche commencent l’exploration d’un site en cherchant le fichier robots.txt à cette adresse. Si le fichier n’existe pas, le robot commence son indexation à partir de l’adresse par laquelle il est arrivé.

Voici un fichier robots.txt optimisé pour un site Internet ou blog réalisé sur WordPress.
[pastacode lang=”php” message=”” highlight=”” provider=”manual”]

User-agent: *
# On empêche l'indexation des dossiers sensibles
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?
# On empêche l'indexation des fichiers sensibles
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# On indique au spider le lien vers notre sitemap
Sitemap: https://www.geekpress.fr/sitemap.xml

[/pastacode]

Cet article a été mis à jour il y a 4866 jours - Il n'est peut être plus à jour !

Article écrit par Jonathan B.

Jonathan est le co-fondateur de WP Media, startup connue pour être l’auteur de WP Rocket et Imagify. Il est aussi co-organisateur du WordCamp Lyon et Paris.

127 Commentaires

  1. Merci pour cet excellent tuto. Il m’a permis d’ajouter à mon robots.txt certaines choses que j’avais omis. Par contre es-tu certain qu’il s’agit bien pour Google AdSense de mettre User-agent: Mediapartners-Google* avec l’étoile * ?

  2. Sur la source, ils ne mettent pas d’étoile (*) à la suite de User-agent: Mediapartners-Google. Je ne comprends pas.

  3. Attention que la directive ‘allow’ n’est pas comprise par tous les moteurs de recherche !

    On a beaucoup discuté  sur le problème du robots.txt

     

    En ce qui me concerne, pour avoir créé plusieurs sites, avec des robots.txt plus ou moins élaborés, j’ai constaté qu’il y avait peu de différences (il suffit de consulter Google webmaster tools)

     

    Je suis arrivé à la conclusion que quand on a mis simplement :

    Disallow: /wp-

     

    alors on a fait le principal.

     

  4. Merci pour les infos, juste une question svp :

    Disallow: /comments

    signifie que les commentaires ne sont pas pris en compte, pourquoi ?
    cela peut être un plus pour le référencement, non ?

    • C’est la page qui liste tous les commentaires que l’on demande de ne pas indexer.

      Cette page fait du duplicate content par rapport aux commentaires qui sont dans les articles :)

  5. Salut, et merci pour ce super fichier robots. C’est vrai que pas mal de ligne qui s’y trouve là on n’y pense pas toujours.

    Mais j’ai un dout, normalement un fichier robots.txt ne doit pas obligatoirement ne contenir aucun espace superflue ou saut de ligne ? 0_o

    Merci en tout cas

  6. @ Alex : un fichier robots.txt peut contenir des sauts de ligne.

    C’est mieux pour s’y retrouver =D

  7. En même temps quand j’avais commencé on m’avait dit : “Pas d’espace ni saut de ligne” donc je suis resté sur cette idée.

    Merci pour la bonne informations :p

  8. Il y a deux points que j’enleverai dans ce fichier robots.txt :

    – Disallow: /wp-content/themes, car certains thèmes peuvent contenir par exemple des images que l’on voudrait référencer (et Google Image n’est pas le seul moteur de recherche d’image au monde).

    – Disallow: /*.wmv$, car on peut très bien vouloir référencer des fichiers vidéos au format wmv.

    Pour le reste, rien à redire. Ce fichier robots.txt pour WordPress est optimisé pour les moteurs de recherche.

  9. @ Daniel Roch : En effet, on peut vouloir référencer nos fichiers flash.

    Par contre, quelles genres d’images pourrait-être référencer dans le fichier de thème ? Personnellement, je possède que les images dont j’ai besoin pour le design.

  10. Bonjour, je suis néophite et je vois pas comment on modifie ce fichier – Fizilla ? je ne trouve pas le fichier dans mon dossier. Pourriez-vous m’orienter. Cordialement

  11. @Andre : Si le fichier robots.txt n’existe pas à la racine de votre FTP, il faut le créer.

    Pour le créer, un editeur de texte basique suffira.

  12. Merci pour votre réponse, je bloque simplement sur un point de détail. Le fichier s’affiche bien à l’écran. Comment je l’importe dans un éditeur et comment je le réexporte à nouveau sur le site dans la racine.
    Qunat le fichier s’affiche à l’écran je ne voie pas l’action qui me permet de le modifier. Je suis pas doué surement. Cordialement

  13. @Andre : Qu’est ce que vous entendez par “le fichier s’affiche bien à l’écran ?

    Le fichier robots.txt s’ouvre avec n’importe quel éditeur de texte. Vous pouvez même le modifier avec Word !

  14. Dans ma fenêtre internet je compose annoncesboulanger.com/robots.txt, je peux visualiser le contenu du fichier, et c’est à cet étape que je ne vois pas comment le récupérer dans word par exemple.
    Par ailleurs sur mon compte GOOGLE WEBMASTER sur deux de mes sites j’ai un message qui me dit que robot.txt “Une page importante est bloquée par un fichier robots.TXT Comment interpréter ce message alors que je n’ai pas encore modifié les parametres du fichier.
    Cordialement

  15. @Andre, il ne faut pas aller sur l’adresse du fichier, mais il faut récupérer le fichier lui-même ! A partir d’un client FTP comme Fizella.

    Si vous n’avez pas accès au FTP de votre site, des plugins comme WordPress SEO permettent de modifier le contenu du fichier robots.txt à partir de l’administration.

  16. Bonjour, Je comprends bien sauf que lorsque je consulte dans la racine avec FIZILLA il n’y a pas de fichier ROBOTS.TXT Je vais voir avec l’autre option que vous proposer.

  17. Je suis bien à l’endroit que vous citez, J’ai même recopier tous les fichiers avec Fizilla sur mon PC, j’ai fait une recherche, sur le PC, pas de fichier trouvé. Sauf des noms à l’intérieur des fichiers. C’est tout de même curieux, ex-ce qu’il n’y aurait pas d’option d’affichage quelque part ?

  18. @Andre : vous ne devez pas regarder au bon endroit. Il faut être au niveau ou vous pouvez voir les dossiers “wp-content”, “wp-admin”, “wp-include et il y a aussi pas mal de fichier comme wp-config.php entre autre.

    Si vous n’avez pas tout ça à l’endroit où vous regardez, c’est que vous n’êtes pas au bon endroit ;)

  19. Non, les fichiers .txt ne sont pas invisibles. Si vous êtes au bon endroit, il y a forcément un fichier robots.txt sinon vous ne pourriez pas y accéder à partir d’une adresse URL ^^

  20. Bonjour, j’ai réussi à mettre à jour avec le plugin, merci pour tout.
    Cordialement,
    Andre

  21. Bonjour,

    J’ai utilisé le même fichier robots placé à la racine de mon blog. Cependant dans Webmaster tools il m’indique “Impossible d’explorer votre site, car nous n’avons pas pu accéder au fichier robots.txt.robots.txt.”
    Auriez-vous une réponse?

  22. @Kittin : Votre fichier s’appel robots.txt.robots.txt, il faut que se soit uniquement robots.txt ;)

  23. Merci pour votre réponse mais mon fichier s’appelle bien robots.txt et dans mon google webmaster tools il indique « Impossible d’explorer votre site, car nous n’avons pas pu accéder au fichier robots.txt.robots.txt. »

    Tel que cité dans mon compte webmaster tools. Le fichier à la racine est bien nommé robots.txt uniquement… alors pourquoi une erreur dans le webmaster tools?

    Si vous pouviez m’éclairer et peut être d’autres dans le même cas que moi :)

  24. @Kittin : il suffit de tester l’adresse votre-site.com/robots.txt pour savoir si le fichier existe bien :)

  25. Oui il existait bien à l’adresse malgré ça dans google webmaster tools il indique une erreur, étrange. Du coup j’ai retiré le fichier robots.txt, j’attends de voir si l’erreur persiste :)

  26. Bonjour !

    Je viens de réaliser mon fichier robots.txt grâce au votre! Merci donc au passage! ;)

    Petite question : est-ce qu’il est possible de faire un disallow sur un fichier directement? Fichier qui se trouve au même niveau que les dossiers wp-admin ou includes….

    Je pense mettre cette ligne :
    Disallow: /mapagesecrete.php

    C’est une page qui ne doit pas être indexée.

    Est-ce que cela fonctionnerait?

    Merci!

  27. Pour un fichier, il faut préciser le chemin complet menant vers lui. Par exemple, s’il se trouve dans un dossier “sensibles” présent à la racine du site et que le fichier se nomme “fichier.html”, il faut ajouter la ligne Disallow: /sensibles/fichier.html qu’il ne soit pas pris en compte par les moteurs de recherche.

  28. Bonjour,
    robots.txt interessant
    mais si on met
    Disallow :/*? le Disallow/*?* est inutile
    Allow: /wp-content/uploads n’est pas bloqué donc déjà autorisé (parano?)

    Disallow: */feed comprend deja le /feed celui-ci devient inutile

    petit netoyage:
    Disallow: /cgi-bin
    Disallow: /wp-content/
    Disallow: /trackback
    Disallow: /comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?
    Allow: /wp-content/uploads

    et bein pour çà on voit plus clair ^^

  29. Je suis d’accord pour le Allow: /wp-content/uploads et la suppression de Disallow: */feed , mais pas avec le reste.

    Disallow :/*? permet d’éviter une url de ce type : exemple.com/index.php?

    tandis que Disallow/*?* permet d’éviter une url de ce type : exemple.com/index.php?var=1&var=2

    C’est donc une directive différente et complémentaire de la première.

  30. @Fragger : Tout à fait, c’est une bonne remarque. En plus, il est présent dans le robots.txt du site =_=

    Merci de m’avoir fait pensé à mettre à jour l’article avec cette indication !

  31. Bonjour,
    Merci beaucoup pour l’article. J’ai une question.
    Je veux pas répertorier mes photos, aucune de mes photos.
    Je sais pas bien comment je devrais ajouter les consignes.

    Pour:
    User-agent: *
    Disallow: /wp-content/uploads
    Disallow: /wp-content/uploads/2012
    Disallow: /wp-content/uploads/2012/
    Disallow: /wp-content/uploads/2012/04
    Disallow: /wp-content/uploads/2012/05

    Ça serait comme ça? Je dois specifier chaque repertoire?

    et pour Google, ça serait bien je mets:

    User-agent: googlebot
    User-agent: slurp
    User-agent: msnbot
    Disallow : /*.jpg$

    Ça fait longtemps que j’essaye et ça ne marche pas bien. Je vous remercie infiniment si vous pouvez m’aider.

    merci !

  32. @Lucila : Par défaut le contenu du dossier wp-content/uploads est indéxé par les robots si il n’y a pas Disallow: /wp-content dans le fichier.

  33. merci de m’avoir répondu

    alors je dois ajouter la ligne:
    Disallow: /wp-content

    J’aurais une autre question, pour finir de comprendre:

    Quelle est la différence entre écrire:

    Disallow: /wp-content

    et

    Disallow: /wp-content/

    merci encore

  34. @Lucila : Attention, c’est Disallow: /wp-content/uploads

    J’ai oublié d’ajouter uploads dans la ligne ^^

  35. merci pour ces astuces, mais depuis que j’ai mis en place votre texte robots.txt mes revenus adsense baissent ? :(

  36. @wiloo : je ne pense pas que cela influe sur les revenus adsence puisque les publicités sont toujours visibles par les internautes.

  37. @Manon : La “racine” correspond à l’endroit où sont stockés les fichiers de votre site. Il faut utiliser un client FPT (Fizella ou autre) pour pouvoir ajouter/supprimer des fichiers.

  38. Très bien pratique, je rajouterai, pour ceux qui ont une recherche du type “www.monsite.com/search/mots-clés” :

    User-agent: *
    Disallow: /search

  39. Ca fait deux fois que je tombe sur le même article, décidément…

    Avec le recul je constate que tout se déroule bien et que mon fichier robot passe bien via Google ^^ Thank a lot

  40. J’ai un souci avec l’apparition du site dans Google : lorsque je saisi “syscoach.fr” dans la barre de recherche Google, j’obtiens ce résultat :

    La description de ce résultat n’est pas accessible à cause du fichier robots.txt de ce site. En savoir plus

    Je n’ai pas réussi à trouver le fichier Robots.txt dans Filezilla. J’ai donc utiiser le plugins proposé par wordpress pour le modifier :
    wp-robots-txt

    J’ai apporté les modifications suivantes :
    User-agent: *
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /trackback
    Disallow: /comments
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?*
    Disallow: /*?
    User-agent: Googlebot
    Disallow: /*.php$
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*
    User-agent: *
    Disallow: /wp-login.php*

    Lorsque je saisi l’adresse de la page : http://www.syscoach.fr/robots.txt, le fichier est bien mis à jour, mais le résultat dans Google est toujours le même.

    Existe-t-il un autre fichier robots.txt géré par OVH ?
    Pourquoi mon site n’est pas accessible ?

    merci pour votre réponse et bonne journée.

    cordialement

  41. @Perrier : C’est la 1ère fois que je vois ce genre de problème et je ne sais pas du tout d’où cela peut provenir :/

  42. Bonjour,
    voici la réponse d’OVH :
    vous devez en plus de cela referencier votre site.
    Ce service n’est pas proposé par OVH.
    Je vous invite à vous rendre sur les forums et site de referencement pour plus de détails.
    http://forum.ovh.net/
    http://www.webrankinfo.com/

    Nous restons à votre disposition pour toute information complémentaire.
    —————————–
    J’ai donc du oublier une étape ! mais je ne vois pas laquelle;
    Merci de votre aide.
    cdlt.
    J. Perrier

  43. Bonjour,
    J’ai suivi vos indications pour créer et installer mon fichier robots.txt
    Puis, j’ai utilisé ce site pour le vérifier : http://tool.motoricerca.info/robots-checker.phtml
    Il indique (en anglais, mais je traduis) : “Le caractère “*” dans les noms de fichiers n’est pas pris en charge par (tous) les agents utilisateurs visés par ce bloc de code. ”
    Que faut-il en penser ?
    De même, il indique qu’il ne doit pas y avoir de ligne vide ; donc, j’ai mis les commentaires avec # — à la suite de la dernière ligne de chaque partie. Enfin, je ne comprends pas l’utilité d’autoriser Google-Images à accéder au répertoire wp-content/uploads, puisqu’on ne lui a pas interdit auparavant ;)
    Merci d’avance de votre réponse pour m’éclairer

  44. @Flobogo : En fait, c’est assez simple : ce ne sont que des “recommandations”. Ce n’est pas grave si on s’autorise de faire des sauts de ligne…

  45. bonjour, merci pour cet article, je me rends compte que j’ai pas grand chose dans mon robot a part intediction pour les fichiers d’admin et wplogin.
    J’ai fait une grosse connerie sur mon blog, je pensais bien faire en ajoutant %%category%% devant le titre du post dans mes permaliens.
    Mais du coup je me retrouve avec plein d’erreurs 404 de pages non trouve dans google tools. Maintenant j’ai remis comme avant donc directement /%postname%/ et j’ai corrige les articles dans google
    Maintenant je voudrais desindexer les pages http://www.monsite.com/category/posttitle
    et garder uniquement http://www.monsite.com/posttitle
    Mais vu que je ne comprend pas tout dans le texte robot, alors ma question est si je met : Disallow: /category/*/*
    esce que ca desindexe les category mais garde les * c’est a dire les posttitle ? Pourquoi il y a 2 etoiles ?
    Si c’est pas le cas, pourriez vous m’indiquer comment faire si vous avez le temps SVP
    Merci pour votre site il y a plein de conseils qui vont me servir :)

  46. Le robots.txt ne permet d’indiquer à un robot ne sert pas vraiment à désindéxer des pages. Il permet simplement de guider les robots vers les adresses que l’on souhaite indéxer.

    Donc dans votre cas, il faut faire des redirections en plus des directives du fichier robots.txt

  47. bonjour,
    j’ai aussi rajouter ça dans mon fichier robots.txt
    Disallow: /search/
    Disallow: /?s=
    ce qui permet d’éviter l’indexation des pages de recherche

  48. @Julie : la directive Disallow: /?s= ne sert à rien car il y a déjà Disallow: /*? qui permet de ne pas prendre en compte toutes les URLs qui se terminent par un ? et des variables.

    @Anna : Je ne peux pas vous répondre avec certitude, mais je pense que cela peut valoir la peine d’ajouter Google Mobile.

  49. Bonjour et merci pour vote tuto.
    J’ai déplacé toute mes images de mon site wordpress vers un sous-domaine
    (cdn.monsite.com/images) en prenant soin de bien redirigé dans mon fichier htaccess. Une semaine plus tard, je m’apercevois sur webmastertools que toute mes images ont été dexindexé. Je voulais savoir si il y’avait une commande a ajouté dans le robot.txt pour indexer un sous domaine, ou bien si ca se fait automatiquement. merci

  50. @Nico : Au risque de me répéter, mais le fichier robots.txt ne permet de pas désindexer des pages. Il donne uniquement un guide de chemin à suivre aux robots.

  51. Bj Jonathan et merci pour cet article.
    j’ai un site auquel j’ai rajoute dernierement un blog WP. Pour ce, j’ai crée un repertoire “Blog” a la racine de mon site et mit dedans tout le contenu de WP.
    Pour maintenant mettre en application vos recommandations, dois-je :
    – créer un nouveau fichier Robots.txt que je vais mettre dans mon repertoire “Blog” (avec tout le contenu que vous avez decrit)
    – ou bien completer mon fichier “Robots.txt” existant deja ? (et dans ce cas, puis-je simplement ‘rajouter’ “/Blog/” devant chaque ligne decrite ? exemple :

    Disallow: /blog/wp-login.php
    Disallow: /blog/wp-admin
    Disallow: /blog/wp-includes
    Disallow: /blog/wp-content/plugins
    Disallow: /blog/wp-content/cache
    Disallow: /blog/wp-content/themes
    Disallow: /blog/category/*/*
    Disallow: /blog*/trackback
    Disallow: /blog*/feed
    Disallow: /blog*/comments
    Disallow: /blog/*?
    
  52. @Gael,

    Je te conseille de compléter ton fichier robots.txt actuel (le robots se met toujours à la racine). Effectivement tu as juste à rajouter /blog/ aux directives.

  53. Ok, merci. Petite question de syntaxe, dois-je ecrire :

    Disallow: /blog*/comments
    Disallow: /blog/*?
    Disallow: /blog/*.php$
    

    ou plutot

    Disallow: /blog/*/comments
    Disallow: /blog//*?
    Disallow: /blog//*.php$
    
  54. Un grand merci à Jonathan et aux divers participants, je viens de mettre mon fichier à jour grâce au plugin indiqué. Plus qu’à attendre de voir le comportement de google qui me disait avoir un problème avec mon fichier auparavant et ne voulait indexer le site. Stephane.

  55. Bonjour,
    Article très intéressant sur ce fameux fichier.

    Mais est ce que ce fichier peut contenir des lignes vierges (saut de ligne) ?

    Fabrice.

  56. @Belrose : Il est conseillé de ne pas en mettre, mais le fichier est tout de même compris s’il contient des sauts de ligne.

  57. Bonjour

    J’utilise Google XML Sitemaps qui me conseille de laisser le fichier robots.txt virtuel et de ne pas placer de fichier robots.txt à la racine

    Est ce que je fais bien?

  58. @Graphiouest : Personnellement, je vous conseille de ne pas suivre la recommandation du plugin et de placer le fichier robots.txt à la racine de votre FTP.

  59. Je te conseille de supprimer la ligne 2 car elle invalide toutes les lignes suivantes.
    Il faut mieux mettre le commentaire avant les directives pour éviter que cela pose problème. (vu au seo campus d’il y a quelques jours)

    Edit admin : merci d’éviter les pseudos à la con comme “Créer site Strasbourg” sans mettre de nom/pseudo avant. Il y a Keywordluv sur ce site, merci de l’utiliser pour poser une ancre.

  60. @Lije Creative : La ligne correspond à un saut de ligne, donc on part du principe qu’il ne faut pas du tout en mettre ?

  61. Bonsoir, j’ai vu des choses intéressantes dans les commentaires, comme la gestion du duplicate content par exemple.
    Sinon, je ne vois vraiment pas l’intérêt de “disallow” tout ce que tu préconises. Google indexe des milliards de pages, un peu plus ou un peu moins… Se pose ensuite la question du hacking, et franchement, je ne pense pas qu’un hacker se repose beaucoup sur Google pour trouver tes pages sensibles.
    Sécuriser un site, oui. “Optimiser” l’indexation ? Franchement ? Y’a plus important.

  62. “je ne pense pas qu’un hacker se repose beaucoup sur Google ”

    C’est mal pensé alors… A votre avis, ils font comment les hackers pour trouver les sites contenants une faille dans un plugin ?

    Et qu’est-ce qui peut être plus important que faciliter l’indexation (autre le référencement pur et dur) ?

  63. Bonjour,

    Je suis tombé sur votre site en cherchant quoi mettre sur mon robots.txt et j’ai fait la mise à jour de mon fichier mais je n’ai plus accès à mes articles en cliquant dessus. Mon navigateur me donne une reponse 400 BAD request.

    j’ai exactement le même robots que l’article.

  64. @hitthemonkey: Vous êtes sûr d’avoir modifier le bon fichier ? Car un fichier robots.txt n’a aucune influence sur l’accès des pages d’un site Internet. Ce fichier ne peut pas provoquer d’erreur 404, 500, ETC… !

  65. Merci pour cet éternel rappel du B-A BA du référencement ! J’y retombe depuis plusieurs années dés que j’ai besoin de générer mon fichier robots “standard” pour WP, il m’est donc très utile, d’autant qu’il semble évoluer au gré des commentaires.

  66. Bonjour, j’ai une petite question qui peut sembler étrange, mais si jamais on a un domaine dans l’indication du site map, qui n’est pas celui du site actuelle, qu’est-ce que ça fait ?

    Je m’explique, en gros, j’ai 3 sites avec le même robots.txt, j’aimerai donc mettre 3 “Sitemap:”, exemple :

    Sitemap: http://www.domaine1.fr/sitemap-1.xml
    Sitemap: http://www.domaine2.fr/sitemap-2.xml
    Sitemap: http://www.domaine3.fr/sitemap-3.xml

    Il n’y a pas de problème ?

  67. Merci bien, tu m’enlève une sacré écharde du pied :)

    C’est ça d’avoir un client qui veux gérer un multiboutique sans passer à la 1.5 de Prestashop >< :)

    ( Au passage, je sais que c’est pas le bonne endroit pour demander ça mais, y’aurai pas un tuto pour apprendre comment générer les avatars avec les pseudo comme dans vos commentaires ? )

  68. Petite remarque par rapport à ton code : Allow n’existe pas. Le fichier robots.txt sert à interdir l’accès, pas à autoriser. Par principe, tout ce qui n’est pas interdit est autorisé. Si tu veux par exemple dire à Google Image de tout indéxer, ce code suffit :

    User-agent: Googlebot-Image
    Disallow:

    cf http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449
    “Le fichier robots.txt le plus simple a recours à deux règle”

  69. Arf, Google ne fait rien de bien oO
    Je n’avais jamais cherché à regarder le robots.txt de Google.fr lol
    Je vois qu’il fait allow une page d’une section en disallow :

    Disallow: /reader/
    Allow: /reader/play

    On en avait parlé au SEO Campus à Paris, la mention Allow n’existe pas dans la documentation mais elle fonctionne en pratique.

    Ah au fait, une ligne vide entre le user-agent ciblé et les règles résulte à ne pas prendre en compte ces règles normalement.

  70. @LIJE Creative: Donc pour ne pas avoir de problème, il faut supprimer les sauts de ligne ?

  71. Bonjour, merci beaucoup pour cet article.
    Je suis débutant, et je viens de terminer un site vitrine, ou portefolio.
    En réalité j’expérimente en même temps les méandres de wordpress, et ce site n’est destiné qu’à moi.
    J’ai une question assez étrange peut-être, car je ne l’ai trouvée nulle part, la voici :
    Je voudrais faire en sorte que les visiteurs ne puisent entrer sur mce site que par l’index.php; Tous mes articles se trouvent sur cette page. je voudrais donc que seule la racine du site soit visible au niveau des navigateurs. Est-ce possible?

    Merci

  72. Bonjour Jonathan,

    Concernant le plugin Wp-Rocket faut-il empecher l’indexation du cache ?
    wp-content > wp-rocket-cache

    Merci

  73. @stelf: Oui, il serait préférable de l’indiquer dans le fichier robots.txt. D’ailleurs, que ce soit les fichiers de cache de WP Rocket ou d’un autre système de cache, il faudrait le faire.

  74. J’ai lu quelque part qu’indiquer l’adresse du sitemap (Seomix pour ne citer personne). Ils disent que ça ne sert pas grand chose.. Bon après, cela reste un détail évidemment.

  75. Le souci de seomix c’est qu’il ne compte que sur les moteurs de recherche, Google, Yahoo et bing, 3 des moteurs qui ont un système d’outils de webmaster où il faut chez eux, indiquer dans leurs système l’adresse de voter sitemap.xml mais li y a d’autres moteurs de recherches et cela ne fait pas de mal de le mettre dans robots.txt.

  76. En effet, bien construire un robots.txt c’est important et utile pour les vrais bon les 3 gentils robots sympathiques, ceux qui eux respectent (plus ou moins) les directives de robots.txt. Ainsi on évitera de nombreuses requêtes inutiles et pompeuses de ressources.

    Mais comme le dit Darknote, il n’y a pas que cela, il y a aussi les petits, les sans grades… Et puis les aussi les AUTRES !

    Il faut savoir, que tout bon hacker ou badbots qui se respecte va aussi le scruter avec attention et gourmandise ; et donc de fait on le renseigne sur pas mal de chose (ceci est valable pour tout type de site, pas que WP).

    Une parade ou “astuce” est de déclarer un dossier piège à mouche, une sorte de trappe alléchante pour le faire tomber dedans.

    Par exemple : Disallow: /wp-private-2013
    Ou bien le nom que vous voulez du moment que c’est attractif, un bon pot à miel, bien collant… A vous être inventif.

    Et ensuite ?
    Et bien cela se passe au niveau administration serveur, il faut définir des règles efficaces de bannissement (regular expression), par exemple avec Fail2ban / IPtables.

    Le visiteur malicieux, à priori sera assez tenté d’aller voir ce qui se trouve dans ce dossier (qui ne doit pas exister sur votre site) ; d’où une erreur Apache, que la règle idoine de F2B retrouve dans les logs ;-)

    A la première tentative d’accès à /wp-private-2013 => Bannissement minimum 24h de l’IP !!!

    D’une manière générale, pour ceux qui ont des privilèges suffisant sur leur hébergement, il est toujours très important de sécuriser un serveur en amont des sites, cms, bases…

    Spiral.Debian – Admin.dev.secure.

  77. Bonsoir,
    j’ai voulu tester le robots.txt qui est un clone de celui de votre article sur ce site
    http://www.frobee.com/robots-txt-check

    et résultat en anglais, donc pour moi, je ne comprends rien.
    Mais il m’indiqué 1 Error 26 Warnings 0 Notices

    Line 4:
    Missing User-agent directive! Found Disallow
    Each rule record has to start with at least one User-agent statement. Blank lines delimit rule records and may not be used between User-agent and Disallow statements.
    2: 3: # On empêche l’indexation des dossiers sensibles 4: Disallow: /cgi-bin 5: Disallow: /wp-login.php 6: Disallow: /wp-admin
    Line 11:
    Wildcard * in Disallow directive!
    Besides the major search engines, most crawlers don’t support wildcard matches and will most likely misunderstand or ignore them.
    9: Disallow: /wp-content/cache 10: Disallow: /wp-content/themes 11: Disallow: /category/*/* 12: Disallow: */trackback 13: Disallow: */feed
    Line 12:
    Wildcard * in Disallow directive!
    Besides the major search engines, most crawlers don’t support wildcard matches and will most likely misunderstand or ignore them.
    10: Disallow: /wp-content/themes 11: Disallow: /category/*/* 12: Disallow: */trackback 13: Disallow: */feed 14: Disallow: */comments
    Line 13:
    Wildcard * in Disallow directive!
    Besides the major search engines, most crawlers don’t support wildcard matches and will most likely misunderstand or ignore them.
    11: Disallow: /category/*/* 12: Disallow: */trackback 13: Disallow: */feed 14: Disallow: */comments 15: Disallow: /*?

    problème ou pas ?
    Merci

  78. J’ai aussi un problème avec mon fichier robots.txt.
    Je ne comprends pas pourquoi GoogleBot ne passe plus sur le site dpeuis le 19/01/2014.

    Ci-dessous le contenu de mon fichier .txt. J’ai peut-être rajouté quelques chose qui bloque l’accès. Aidez moi, je ne sais plus quoi faire.

    User-agent: *
    Disallow: /*?
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content
    Allow: /wp-content/uploads
    Disallow: */trackback
    Disallow: /*/feed
    Disallow: /*/comments
    Disallow: /cgi-bin
    Disallow: /*.inc$
    Disallow: /*.gz$
    Disallow: /*.cgi$
    Sitemap: http://keewiweb.com/sitemap_index.xml

    Merci d’avance.

  79. Bonjour à tous,

    @Jonathan

    Je me suis inspirée de beaucoup des tutos du site pour les appliquer au mien et je suis contente du résultat. Donc merci pour ces tutos bien expliqués (autant que ceux de Julio de BoiteaWeb dont j’aime également ça façon d’expliquer les choses clairement !), même une vraie novice comme moi peut y arriver…

    Cependant, j’ai un petit souci avec ce tuto-ci. Quelqu’un m’a fait remarqué que mon fichier robots.txt contenait des erreurs en me donnant ce lien pour vérifier : http://tool.motoricerca.info/robots-checker.phtml

    J’ai donc fait la vérification et effectivement de la ligne 11 à 29, il y a (selon l’outil d’analyse) des erreurs. J’ai ce message d’erreur en conclusion (si je peux dire ça) :

    The following block of code contains some errors. You specified both the generic user-agent “*” and specific user-agents for this block of code; this could be misinterpreted. You specified both a generic path (“/” or empty disallow) and specific paths for this block of code; this could be misinterpreted. Please, remove all the reported errors and check again this robots.txt file.

    WARNING: The tool has found some directory paths that don’t include a trailing slash character.
    Since a missing trailing slash can be both a deliberate decision or an error, and since this tool can’t ipotize the real intentions of the webmaster, here follow some clarifications that could prevent a potential problem:
    The following command will disable just the directory “private” and all its contents:
    Disallow: /private/
    …while the following command will disable both the “private” directory and any file or directory path starting with the text “/private” (so “/private-eye.html”, “/privateroom/page.html”, etc.):
    Disallow: /private
    Please be sure to use the correct syntax, according to your needs.

    [Le bloc de code suivant contient des erreurs. Vous avez indiqué à la fois le user-agent générique “*” et user-agents spécifiques pour ce bloc de code, ce qui pourrait être mal interprété. Vous avez spécifié un chemin à la fois générique (“/” ou vide refuser) et des chemins spécifiques pour ce bloc de code, ce qui pourrait être mal interprété. S’il vous plaît, retirez toutes les erreurs signalées et vérifier à nouveau ce fichier robots.txt.

    ATTENTION: L’outil a trouvé des chemins de répertoire qui ne comprennent pas un caractère de barre oblique.
    Depuis un slash manquant peut être à la fois une décision délibérée ou d’une erreur, et que cet outil ne peut pas ipotize les intentions réelles du webmaster, ici suivre quelques précisions qui pourraient empêcher un problème potentiel :
    La commande suivante permet de désactiver simplement le répertoire “privé” et tout son contenu :
    Disallow: / private /
    … alors que la commande suivante permet de désactiver à la fois le répertoire “privé” et un fichier ou un chemin d’accès commençant par le texte “/ privé” (si “/ privé eye.html”, “/ privateroom / page.html”, etc .):
    Disallow: / privé
    S’il vous plaît assurez-vous d’utiliser la syntaxe correcte, en fonction de vos besoins.]

    Je voulais savoir ce que tu en penses ?

  80. @Rosa : J’en pense que je n’ai jamais eu de problème d’indexation avec le code fournit dans l’article :)

  81. Google accorde de l’importance depuis 2012 au rendu utilisateur donc interdire l’indexation des js et surtout les css n’est plus une bonne idée à mon avis (cf : explorer une page comme google boot dans webmaster tool

  82. Et dans le cas d’un multiste en sous-domaine le robots.txt ne change pas je pense mais doit-on indiquer les sitesmaps de chaque sous-domaines ?

  83. @Jonathan: Je ne sais pas du tout. Il faudrait demander à quelqu’un de plus confirmé au niveau SEO que moi.

  84. Est-ce que disallow wp-content empêche aussi l’affichage des médias en dehors du site (ex sur Google image) ?

    Si non,comment faire pour empêcher totalement l’accès aux contenus de wp-content ?

  85. @OlalaWeb: Non, le disallow empêche l’indexation, mais pas l’affichage dans le navigateur ;)

  86. Bonjour,

    une question :
    si le blog wordpress n’est pas à la racine du site mais dans un dossier.
    faut-il tout de même mettre le robots.txt à la racine ?

  87. Bonjour,

    J’ai un site auquel j’ai rajouter un blog WP. J’ai crée un répertoire « Blog » a la racine de mon site et j’ai mit dedans tout le contenu de WP.

    Je voudrais savoir ou je devrais rajouter le mot « Blog » dans le fichier robots.txt ?

    Pouvez-vs me refaire le code suivant au complet avec le mot « Blog » inserer au endroit qui faut qui sois inserer dans tout le code parce que j’ai peur de faire une erreur. Je suis novice donc peut d’experience.

    Merci !

    ————

    User-agent: *
    # On empêche l’indexation des dossiers sensibles
    Disallow: /cgi-bin
    Disallow: /wp-login.php
    Disallow: /wp-admin
    Disallow: /wp-includes
    Disallow: /wp-content/plugins
    Disallow: /wp-content/cache
    Disallow: /wp-content/themes
    Disallow: /category/*/*
    Disallow: */trackback
    Disallow: */feed
    Disallow: */comments
    Disallow: /*?
    # On empêche l’indexation des fichiers sensibles
    User-agent: Googlebot
    Disallow: /*.php$
    Disallow: /*.js$
    Disallow: /*.inc$
    Disallow: /*.css$
    Disallow: /*.gz$
    Disallow: /*.swf$
    Disallow: /*.wmv$
    Disallow: /*.cgi$
    Disallow: /*.xhtml$
    # Autoriser Google Image
    User-agent: Googlebot-Image
    Disallow:
    Allow: /*
    # Autoriser Google AdSense
    User-agent: Mediapartners-Google*
    Disallow:
    Allow: /*