Fichier robots.txt optimisé pour WordPress
Le fichier robots.txt peut être optimisé pour WordPress afin d’aider les moteurs de recherches à indexer le contenu de notre site Internet.
WordPress contient des dossiers sensibles, comme wp-admin ou wp-include, qui ne devraient pas être indexés par mesure de sécurité.
Grâce à un fichier robots.txt optimisé pour WordPress, on indique aux différents moteurs de recherche les dossiers et fichiers à ne pas indexer.
Le fichier robots.txt contient une liste de commandes destinée aux différents spiders d’indexation des moteurs de recherche. Il précise les pages ou dossiers qui doivent ou ne doivent pas être indexés par les robots.
Ce fichier unique se trouve obligatoirement à la racine de votre site Internet et il doit être accessible via cette adresse : www.mon-domaine.com/robots.txt.
Tous les moteurs de recherche commencent l’exploration d’un site en cherchant le fichier robots.txt à cette adresse. Si le fichier n’existe pas, le robot commence son indexation à partir de l’adresse par laquelle il est arrivé.
Voici un fichier robots.txt optimisé pour un site Internet ou blog réalisé sur WordPress.
[pastacode lang=”php” message=”” highlight=”” provider=”manual”]
User-agent: *
# On empêche l'indexation des dossiers sensibles
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?
# On empêche l'indexation des fichiers sensibles
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
# On indique au spider le lien vers notre sitemap
Sitemap: https://www.geekpress.fr/sitemap.xml
[/pastacode]
127 Commentaires
Merci pour cet excellent tuto. Il m’a permis d’ajouter à mon robots.txt certaines choses que j’avais omis. Par contre es-tu certain qu’il s’agit bien pour Google AdSense de mettre User-agent: Mediapartners-Google* avec l’étoile * ?
Oui, je suis certain du détail ;)
Voici LA source qui le confirmera :)
http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=1061943
Sur la source, ils ne mettent pas d’étoile (*) à la suite de User-agent: Mediapartners-Google. Je ne comprends pas.
Attention que la directive ‘allow’ n’est pas comprise par tous les moteurs de recherche !
On a beaucoup discuté sur le problème du robots.txt
En ce qui me concerne, pour avoir créé plusieurs sites, avec des robots.txt plus ou moins élaborés, j’ai constaté qu’il y avait peu de différences (il suffit de consulter Google webmaster tools)
Je suis arrivé à la conclusion que quand on a mis simplement :
Disallow: /wp-
alors on a fait le principal.
Merci pour ton article. Je m’en vais de ce pas éditer mon fichier robots.txt !
Salutations !
Tres intéressant, avec moins de fautes d’orthographe ce serait parfait.
génial… ça va permettre de mieux protéger mon blog ! merci
Merci pour les infos, juste une question svp :
Disallow: /comments
signifie que les commentaires ne sont pas pris en compte, pourquoi ?
cela peut être un plus pour le référencement, non ?
C’est la page qui liste tous les commentaires que l’on demande de ne pas indexer.
Cette page fait du duplicate content par rapport aux commentaires qui sont dans les articles :)
Salut, et merci pour ce super fichier robots. C’est vrai que pas mal de ligne qui s’y trouve là on n’y pense pas toujours.
Mais j’ai un dout, normalement un fichier robots.txt ne doit pas obligatoirement ne contenir aucun espace superflue ou saut de ligne ? 0_o
Merci en tout cas
@ Alex : un fichier robots.txt peut contenir des sauts de ligne.
C’est mieux pour s’y retrouver =D
En même temps quand j’avais commencé on m’avait dit : “Pas d’espace ni saut de ligne” donc je suis resté sur cette idée.
Merci pour la bonne informations :p
Il y a deux points que j’enleverai dans ce fichier robots.txt :
– Disallow: /wp-content/themes, car certains thèmes peuvent contenir par exemple des images que l’on voudrait référencer (et Google Image n’est pas le seul moteur de recherche d’image au monde).
– Disallow: /*.wmv$, car on peut très bien vouloir référencer des fichiers vidéos au format wmv.
Pour le reste, rien à redire. Ce fichier robots.txt pour WordPress est optimisé pour les moteurs de recherche.
@ Daniel Roch : En effet, on peut vouloir référencer nos fichiers flash.
Par contre, quelles genres d’images pourrait-être référencer dans le fichier de thème ? Personnellement, je possède que les images dont j’ai besoin pour le design.
Bonjour,
Article très intéressant, je vais éditer mon fichier robots.txt, merci.
Salut,
Merci pour les infos, mon robots.txt est maintenant opti !
Merci pour cet article, je met en place direct ;-)
Bonjour, je suis néophite et je vois pas comment on modifie ce fichier – Fizilla ? je ne trouve pas le fichier dans mon dossier. Pourriez-vous m’orienter. Cordialement
@Andre : Si le fichier robots.txt n’existe pas à la racine de votre FTP, il faut le créer.
Pour le créer, un editeur de texte basique suffira.
Merci pour votre réponse, je bloque simplement sur un point de détail. Le fichier s’affiche bien à l’écran. Comment je l’importe dans un éditeur et comment je le réexporte à nouveau sur le site dans la racine.
Qunat le fichier s’affiche à l’écran je ne voie pas l’action qui me permet de le modifier. Je suis pas doué surement. Cordialement
@Andre : Qu’est ce que vous entendez par “le fichier s’affiche bien à l’écran ?
Le fichier robots.txt s’ouvre avec n’importe quel éditeur de texte. Vous pouvez même le modifier avec Word !
Dans ma fenêtre internet je compose annoncesboulanger.com/robots.txt, je peux visualiser le contenu du fichier, et c’est à cet étape que je ne vois pas comment le récupérer dans word par exemple.
Par ailleurs sur mon compte GOOGLE WEBMASTER sur deux de mes sites j’ai un message qui me dit que robot.txt “Une page importante est bloquée par un fichier robots.TXT Comment interpréter ce message alors que je n’ai pas encore modifié les parametres du fichier.
Cordialement
@Andre, il ne faut pas aller sur l’adresse du fichier, mais il faut récupérer le fichier lui-même ! A partir d’un client FTP comme Fizella.
Si vous n’avez pas accès au FTP de votre site, des plugins comme WordPress SEO permettent de modifier le contenu du fichier robots.txt à partir de l’administration.
Bonjour, Je comprends bien sauf que lorsque je consulte dans la racine avec FIZILLA il n’y a pas de fichier ROBOTS.TXT Je vais voir avec l’autre option que vous proposer.
Je suis bien à l’endroit que vous citez, J’ai même recopier tous les fichiers avec Fizilla sur mon PC, j’ai fait une recherche, sur le PC, pas de fichier trouvé. Sauf des noms à l’intérieur des fichiers. C’est tout de même curieux, ex-ce qu’il n’y aurait pas d’option d’affichage quelque part ?
@Andre : vous ne devez pas regarder au bon endroit. Il faut être au niveau ou vous pouvez voir les dossiers “wp-content”, “wp-admin”, “wp-include et il y a aussi pas mal de fichier comme wp-config.php entre autre.
Si vous n’avez pas tout ça à l’endroit où vous regardez, c’est que vous n’êtes pas au bon endroit ;)
Non, les fichiers .txt ne sont pas invisibles. Si vous êtes au bon endroit, il y a forcément un fichier robots.txt sinon vous ne pourriez pas y accéder à partir d’une adresse URL ^^
Sinon, voici un plugin qui permet de modifier le fichier robots.txt à partir de l’administration : http://wordpress.org/extend/plugins/wp-robots-txt/
Bonjour, j’ai réussi à mettre à jour avec le plugin, merci pour tout.
Cordialement,
Andre
Bonjour,
J’ai utilisé le même fichier robots placé à la racine de mon blog. Cependant dans Webmaster tools il m’indique “Impossible d’explorer votre site, car nous n’avons pas pu accéder au fichier robots.txt.robots.txt.”
Auriez-vous une réponse?
@Kittin : Votre fichier s’appel robots.txt.robots.txt, il faut que se soit uniquement robots.txt ;)
Merci pour votre réponse mais mon fichier s’appelle bien robots.txt et dans mon google webmaster tools il indique « Impossible d’explorer votre site, car nous n’avons pas pu accéder au fichier robots.txt.robots.txt. »
Tel que cité dans mon compte webmaster tools. Le fichier à la racine est bien nommé robots.txt uniquement… alors pourquoi une erreur dans le webmaster tools?
Si vous pouviez m’éclairer et peut être d’autres dans le même cas que moi :)
@Kittin : il suffit de tester l’adresse votre-site.com/robots.txt pour savoir si le fichier existe bien :)
Oui il existait bien à l’adresse malgré ça dans google webmaster tools il indique une erreur, étrange. Du coup j’ai retiré le fichier robots.txt, j’attends de voir si l’erreur persiste :)
Bonjour !
Je viens de réaliser mon fichier robots.txt grâce au votre! Merci donc au passage! ;)
Petite question : est-ce qu’il est possible de faire un disallow sur un fichier directement? Fichier qui se trouve au même niveau que les dossiers wp-admin ou includes….
Je pense mettre cette ligne :
Disallow: /mapagesecrete.php
C’est une page qui ne doit pas être indexée.
Est-ce que cela fonctionnerait?
Merci!
Pour un fichier, il faut préciser le chemin complet menant vers lui. Par exemple, s’il se trouve dans un dossier “sensibles” présent à la racine du site et que le fichier se nomme “fichier.html”, il faut ajouter la ligne Disallow: /sensibles/fichier.html qu’il ne soit pas pris en compte par les moteurs de recherche.
Bonjour,
robots.txt interessant
mais si on met
Disallow :/*? le Disallow/*?* est inutile
Allow: /wp-content/uploads n’est pas bloqué donc déjà autorisé (parano?)
Disallow: */feed comprend deja le /feed celui-ci devient inutile
petit netoyage:
Disallow: /cgi-bin
Disallow: /wp-content/
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?
Allow: /wp-content/uploads
et bein pour çà on voit plus clair ^^
Je suis d’accord pour le Allow: /wp-content/uploads et la suppression de Disallow: */feed , mais pas avec le reste.
Disallow :/*? permet d’éviter une url de ce type : exemple.com/index.php?
tandis que Disallow/*?* permet d’éviter une url de ce type : exemple.com/index.php?var=1&var=2
C’est donc une directive différente et complémentaire de la première.
Bonjour,
il manque une ligne
User-agent: *
Disallow: /wp-login.php*
@Fragger : Tout à fait, c’est une bonne remarque. En plus, il est présent dans le robots.txt du site =_=
Merci de m’avoir fait pensé à mettre à jour l’article avec cette indication !
Bonjour,
Merci beaucoup pour l’article. J’ai une question.
Je veux pas répertorier mes photos, aucune de mes photos.
Je sais pas bien comment je devrais ajouter les consignes.
Pour:
User-agent: *
Disallow: /wp-content/uploads
Disallow: /wp-content/uploads/2012
Disallow: /wp-content/uploads/2012/
Disallow: /wp-content/uploads/2012/04
Disallow: /wp-content/uploads/2012/05
Ça serait comme ça? Je dois specifier chaque repertoire?
et pour Google, ça serait bien je mets:
User-agent: googlebot
User-agent: slurp
User-agent: msnbot
Disallow : /*.jpg$
Ça fait longtemps que j’essaye et ça ne marche pas bien. Je vous remercie infiniment si vous pouvez m’aider.
merci !
merci pour les information : )
@Lucila : Par défaut le contenu du dossier wp-content/uploads est indéxé par les robots si il n’y a pas Disallow: /wp-content dans le fichier.
merci de m’avoir répondu
alors je dois ajouter la ligne:
Disallow: /wp-content
J’aurais une autre question, pour finir de comprendre:
Quelle est la différence entre écrire:
Disallow: /wp-content
et
Disallow: /wp-content/
merci encore
@Lucila : Attention, c’est Disallow: /wp-content/uploads
J’ai oublié d’ajouter uploads dans la ligne ^^
merci pour ces astuces, mais depuis que j’ai mis en place votre texte robots.txt mes revenus adsense baissent ? :(
@wiloo : je ne pense pas que cela influe sur les revenus adsence puisque les publicités sont toujours visibles par les internautes.
Bonjour,
J’ai crée mon fichier robots, mais je dois le télécharger à la racine du blog.
Mais question con c’est quoi la racine?
Si je suis chez OVH c’est la dessus?
Merci
ok Merci!!
J’ai fireftp sur mon ordi, ça marche bien pareil?
Merci beaucoup!!Votre réponse (super rapide)m’a bien aidé!!!
@Manon : La “racine” correspond à l’endroit où sont stockés les fichiers de votre site. Il faut utiliser un client FPT (Fizella ou autre) pour pouvoir ajouter/supprimer des fichiers.
@Manon : Je ne le connaissais pas, mais oui c’est bien un client FTP.
Très bien pratique, je rajouterai, pour ceux qui ont une recherche du type “www.monsite.com/search/mots-clés” :
User-agent: *
Disallow: /search
merci pour ce tuto, que j’ai trouvé par Google, en cherchant sur le moteur de recherche du site robots ou robots.txt o résultat, bizarre.
Je voulais savoir pour exclure une page, dois mettre http://ww.nomdusite.fr/contact ou juste /contact ?
Merci
@Britain : Disallow: /contact suffira
Ca fait deux fois que je tombe sur le même article, décidément…
Avec le recul je constate que tout se déroule bien et que mon fichier robot passe bien via Google ^^ Thank a lot
@Rodrigue : Merci pour le retour d’expérience :)
J’ai un souci avec l’apparition du site dans Google : lorsque je saisi “syscoach.fr” dans la barre de recherche Google, j’obtiens ce résultat :
La description de ce résultat n’est pas accessible à cause du fichier robots.txt de ce site. En savoir plus
Je n’ai pas réussi à trouver le fichier Robots.txt dans Filezilla. J’ai donc utiiser le plugins proposé par wordpress pour le modifier :
wp-robots-txt
J’ai apporté les modifications suivantes :
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
User-agent: Googlebot-Image
Disallow:
Allow: /*
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
User-agent: *
Disallow: /wp-login.php*
Lorsque je saisi l’adresse de la page : http://www.syscoach.fr/robots.txt, le fichier est bien mis à jour, mais le résultat dans Google est toujours le même.
Existe-t-il un autre fichier robots.txt géré par OVH ?
Pourquoi mon site n’est pas accessible ?
merci pour votre réponse et bonne journée.
cordialement
@Perrier : C’est la 1ère fois que je vois ce genre de problème et je ne sais pas du tout d’où cela peut provenir :/
Bonjour,
voici la réponse d’OVH :
vous devez en plus de cela referencier votre site.
Ce service n’est pas proposé par OVH.
Je vous invite à vous rendre sur les forums et site de referencement pour plus de détails.
http://forum.ovh.net/
http://www.webrankinfo.com/
Nous restons à votre disposition pour toute information complémentaire.
—————————–
J’ai donc du oublier une étape ! mais je ne vois pas laquelle;
Merci de votre aide.
cdlt.
J. Perrier
Bonjour,
J’ai suivi vos indications pour créer et installer mon fichier robots.txt
Puis, j’ai utilisé ce site pour le vérifier : http://tool.motoricerca.info/robots-checker.phtml
Il indique (en anglais, mais je traduis) : “Le caractère “*” dans les noms de fichiers n’est pas pris en charge par (tous) les agents utilisateurs visés par ce bloc de code. ”
Que faut-il en penser ?
De même, il indique qu’il ne doit pas y avoir de ligne vide ; donc, j’ai mis les commentaires avec # — à la suite de la dernière ligne de chaque partie. Enfin, je ne comprends pas l’utilité d’autoriser Google-Images à accéder au répertoire wp-content/uploads, puisqu’on ne lui a pas interdit auparavant ;)
Merci d’avance de votre réponse pour m’éclairer
@Flobogo : En fait, c’est assez simple : ce ne sont que des “recommandations”. Ce n’est pas grave si on s’autorise de faire des sauts de ligne…
bonjour, merci pour cet article, je me rends compte que j’ai pas grand chose dans mon robot a part intediction pour les fichiers d’admin et wplogin.
J’ai fait une grosse connerie sur mon blog, je pensais bien faire en ajoutant %%category%% devant le titre du post dans mes permaliens.
Mais du coup je me retrouve avec plein d’erreurs 404 de pages non trouve dans google tools. Maintenant j’ai remis comme avant donc directement /%postname%/ et j’ai corrige les articles dans google
Maintenant je voudrais desindexer les pages http://www.monsite.com/category/posttitle
et garder uniquement http://www.monsite.com/posttitle
Mais vu que je ne comprend pas tout dans le texte robot, alors ma question est si je met : Disallow: /category/*/*
esce que ca desindexe les category mais garde les * c’est a dire les posttitle ? Pourquoi il y a 2 etoiles ?
Si c’est pas le cas, pourriez vous m’indiquer comment faire si vous avez le temps SVP
Merci pour votre site il y a plein de conseils qui vont me servir :)
Le robots.txt ne permet d’indiquer à un robot ne sert pas vraiment à désindéxer des pages. Il permet simplement de guider les robots vers les adresses que l’on souhaite indéxer.
Donc dans votre cas, il faut faire des redirections en plus des directives du fichier robots.txt
merci bcp pour votre reponse Jonathan
bonjour,
j’ai aussi rajouter ça dans mon fichier robots.txt
Disallow: /search/
Disallow: /?s=
ce qui permet d’éviter l’indexation des pages de recherche
autre question
es-ce quil faut allow le googlebot-mobile ? je viens de le voir dans mes outils webmaster
@Julie : la directive Disallow: /?s= ne sert à rien car il y a déjà Disallow: /*? qui permet de ne pas prendre en compte toutes les URLs qui se terminent par un ? et des variables.
@Anna : Je ne peux pas vous répondre avec certitude, mais je pense que cela peut valoir la peine d’ajouter Google Mobile.
Merci pour la réponse du 13 janvier ;)
Bonjour et merci pour vote tuto.
J’ai déplacé toute mes images de mon site wordpress vers un sous-domaine
(cdn.monsite.com/images) en prenant soin de bien redirigé dans mon fichier htaccess. Une semaine plus tard, je m’apercevois sur webmastertools que toute mes images ont été dexindexé. Je voulais savoir si il y’avait une commande a ajouté dans le robot.txt pour indexer un sous domaine, ou bien si ca se fait automatiquement. merci
@Nico : Au risque de me répéter, mais le fichier robots.txt ne permet de pas désindexer des pages. Il donne uniquement un guide de chemin à suivre aux robots.
merci et désolé pour les fautes de frappes de mon précédent message
Bj Jonathan et merci pour cet article.
j’ai un site auquel j’ai rajoute dernierement un blog WP. Pour ce, j’ai crée un repertoire “Blog” a la racine de mon site et mit dedans tout le contenu de WP.
Pour maintenant mettre en application vos recommandations, dois-je :
– créer un nouveau fichier Robots.txt que je vais mettre dans mon repertoire “Blog” (avec tout le contenu que vous avez decrit)
– ou bien completer mon fichier “Robots.txt” existant deja ? (et dans ce cas, puis-je simplement ‘rajouter’ “/Blog/” devant chaque ligne decrite ? exemple :
@Gael,
Je te conseille de compléter ton fichier robots.txt actuel (le robots se met toujours à la racine). Effectivement tu as juste à rajouter /blog/ aux directives.
Ok, merci. Petite question de syntaxe, dois-je ecrire :
ou plutot
Un grand merci à Jonathan et aux divers participants, je viens de mettre mon fichier à jour grâce au plugin indiqué. Plus qu’à attendre de voir le comportement de google qui me disait avoir un problème avec mon fichier auparavant et ne voulait indexer le site. Stephane.
Bonjour,
Article très intéressant sur ce fameux fichier.
Mais est ce que ce fichier peut contenir des lignes vierges (saut de ligne) ?
Fabrice.
@Belrose : Il est conseillé de ne pas en mettre, mais le fichier est tout de même compris s’il contient des sauts de ligne.
OK @Jonathan, merci pour le conseil, je vais le suivre !
;-)
Bonjour
J’utilise Google XML Sitemaps qui me conseille de laisser le fichier robots.txt virtuel et de ne pas placer de fichier robots.txt à la racine
Est ce que je fais bien?
@Graphiouest : Personnellement, je vous conseille de ne pas suivre la recommandation du plugin et de placer le fichier robots.txt à la racine de votre FTP.
Merci Jonathan
Je te conseille de supprimer la ligne 2 car elle invalide toutes les lignes suivantes.
Il faut mieux mettre le commentaire avant les directives pour éviter que cela pose problème. (vu au seo campus d’il y a quelques jours)
Edit admin : merci d’éviter les pseudos à la con comme “Créer site Strasbourg” sans mettre de nom/pseudo avant. Il y a Keywordluv sur ce site, merci de l’utiliser pour poser une ancre.
@Lije Creative : La ligne correspond à un saut de ligne, donc on part du principe qu’il ne faut pas du tout en mettre ?
Bonsoir, j’ai vu des choses intéressantes dans les commentaires, comme la gestion du duplicate content par exemple.
Sinon, je ne vois vraiment pas l’intérêt de “disallow” tout ce que tu préconises. Google indexe des milliards de pages, un peu plus ou un peu moins… Se pose ensuite la question du hacking, et franchement, je ne pense pas qu’un hacker se repose beaucoup sur Google pour trouver tes pages sensibles.
Sécuriser un site, oui. “Optimiser” l’indexation ? Franchement ? Y’a plus important.
“je ne pense pas qu’un hacker se repose beaucoup sur Google ”
C’est mal pensé alors… A votre avis, ils font comment les hackers pour trouver les sites contenants une faille dans un plugin ?
Et qu’est-ce qui peut être plus important que faciliter l’indexation (autre le référencement pur et dur) ?
Bonjour,
Je suis tombé sur votre site en cherchant quoi mettre sur mon robots.txt et j’ai fait la mise à jour de mon fichier mais je n’ai plus accès à mes articles en cliquant dessus. Mon navigateur me donne une reponse 400 BAD request.
j’ai exactement le même robots que l’article.
@hitthemonkey: Vous êtes sûr d’avoir modifier le bon fichier ? Car un fichier robots.txt n’a aucune influence sur l’accès des pages d’un site Internet. Ce fichier ne peut pas provoquer d’erreur 404, 500, ETC… !
Merci ça a résolu les erreurs pour mon site http://www.avosavis.fr pour lequel j’avais des erreurs dans webmaster tools. Après quelques jours d’attentes, Google n’a plus indexé mes pages wp-login
Merci pour cet éternel rappel du B-A BA du référencement ! J’y retombe depuis plusieurs années dés que j’ai besoin de générer mon fichier robots “standard” pour WP, il m’est donc très utile, d’autant qu’il semble évoluer au gré des commentaires.
Bonjour, j’ai une petite question qui peut sembler étrange, mais si jamais on a un domaine dans l’indication du site map, qui n’est pas celui du site actuelle, qu’est-ce que ça fait ?
Je m’explique, en gros, j’ai 3 sites avec le même robots.txt, j’aimerai donc mettre 3 “Sitemap:”, exemple :
Sitemap: http://www.domaine1.fr/sitemap-1.xml
Sitemap: http://www.domaine2.fr/sitemap-2.xml
Sitemap: http://www.domaine3.fr/sitemap-3.xml
Il n’y a pas de problème ?
Non, il n’y a qu’à regarder le fichier de Google :) http://www.google.fr/robots.txt
Merci bien, tu m’enlève une sacré écharde du pied :)
C’est ça d’avoir un client qui veux gérer un multiboutique sans passer à la 1.5 de Prestashop >< :)
( Au passage, je sais que c’est pas le bonne endroit pour demander ça mais, y’aurai pas un tuto pour apprendre comment générer les avatars avec les pseudo comme dans vos commentaires ? )
@TiDJ : Pour les commentaires, j’utilise ceci : http://texatar.jabwire.com/
Petite remarque par rapport à ton code : Allow n’existe pas. Le fichier robots.txt sert à interdir l’accès, pas à autoriser. Par principe, tout ce qui n’est pas interdit est autorisé. Si tu veux par exemple dire à Google Image de tout indéxer, ce code suffit :
User-agent: Googlebot-Image
Disallow:
cf http://support.google.com/webmasters/bin/answer.py?hl=fr&answer=156449
“Le fichier robots.txt le plus simple a recours à deux règle”
Hum, du coup pourquoi Google utilise lui-même Allow ? http://www.google.fr/robots.txt
Arf, Google ne fait rien de bien oO
Je n’avais jamais cherché à regarder le robots.txt de Google.fr lol
Je vois qu’il fait allow une page d’une section en disallow :
On en avait parlé au SEO Campus à Paris, la mention Allow n’existe pas dans la documentation mais elle fonctionne en pratique.
Ah au fait, une ligne vide entre le user-agent ciblé et les règles résulte à ne pas prendre en compte ces règles normalement.
@LIJE Creative: Donc pour ne pas avoir de problème, il faut supprimer les sauts de ligne ?
Bon, je suis quand même un peu déçu sur le coup. Si tu mets un saut de ligne, ça passe, si tu mets tout sur une ligne, ça ne passe pas :(
FIY : https://twitter.com/mattcutts/status/344737243065376769
En fait, il ne réponds pas mais j’ai testé directement dans les GWT.
Merci pour l’astuce :)
Bonjour, merci beaucoup pour cet article.
Je suis débutant, et je viens de terminer un site vitrine, ou portefolio.
En réalité j’expérimente en même temps les méandres de wordpress, et ce site n’est destiné qu’à moi.
J’ai une question assez étrange peut-être, car je ne l’ai trouvée nulle part, la voici :
Je voudrais faire en sorte que les visiteurs ne puisent entrer sur mce site que par l’index.php; Tous mes articles se trouvent sur cette page. je voudrais donc que seule la racine du site soit visible au niveau des navigateurs. Est-ce possible?
Merci
Bonjour Jonathan,
Concernant le plugin Wp-Rocket faut-il empecher l’indexation du cache ?
wp-content > wp-rocket-cache
Merci
@stelf: Oui, il serait préférable de l’indiquer dans le fichier robots.txt. D’ailleurs, que ce soit les fichiers de cache de WP Rocket ou d’un autre système de cache, il faudrait le faire.
Bonsoir,
peut-on ajouter
Crawl-delay: 1
et est ce utile?
Merci
@ darknote: Je pense que ce genre de directive est totalement inutile.
ce n’est pas fait pour ralentir MSNbot qui selon certaines personnes ralentir un site?
@darknote: Je n’ai jamais entendu parler de ce bot là.
je l’ai lu sur différents sites.
http://robots-txt.com/ressources/robots-txt-bing/
http://kubx.fr/ralentir-msn-bot-avec-crawl-delay-robots-txt-881/
etc..
J’ai lu quelque part qu’indiquer l’adresse du sitemap (Seomix pour ne citer personne). Ils disent que ça ne sert pas grand chose.. Bon après, cela reste un détail évidemment.
@Epicture: Si le sitemap ne sert à rien, j’ai envie de dire : Pourquoi Google lui même le fait ? http://www.google.fr/robots.txt :)
Le souci de seomix c’est qu’il ne compte que sur les moteurs de recherche, Google, Yahoo et bing, 3 des moteurs qui ont un système d’outils de webmaster où il faut chez eux, indiquer dans leurs système l’adresse de voter sitemap.xml mais li y a d’autres moteurs de recherches et cela ne fait pas de mal de le mettre dans robots.txt.
En effet, bien construire un robots.txt c’est important et utile pour les vrais bon les 3 gentils robots sympathiques, ceux qui eux respectent (plus ou moins) les directives de robots.txt. Ainsi on évitera de nombreuses requêtes inutiles et pompeuses de ressources.
Mais comme le dit Darknote, il n’y a pas que cela, il y a aussi les petits, les sans grades… Et puis les aussi les AUTRES !
Il faut savoir, que tout bon hacker ou badbots qui se respecte va aussi le scruter avec attention et gourmandise ; et donc de fait on le renseigne sur pas mal de chose (ceci est valable pour tout type de site, pas que WP).
Une parade ou “astuce” est de déclarer un dossier piège à mouche, une sorte de trappe alléchante pour le faire tomber dedans.
Par exemple : Disallow: /wp-private-2013
Ou bien le nom que vous voulez du moment que c’est attractif, un bon pot à miel, bien collant… A vous être inventif.
Et ensuite ?
Et bien cela se passe au niveau administration serveur, il faut définir des règles efficaces de bannissement (regular expression), par exemple avec Fail2ban / IPtables.
Le visiteur malicieux, à priori sera assez tenté d’aller voir ce qui se trouve dans ce dossier (qui ne doit pas exister sur votre site) ; d’où une erreur Apache, que la règle idoine de F2B retrouve dans les logs ;-)
A la première tentative d’accès à /wp-private-2013 => Bannissement minimum 24h de l’IP !!!
D’une manière générale, pour ceux qui ont des privilèges suffisant sur leur hébergement, il est toujours très important de sécuriser un serveur en amont des sites, cms, bases…
Spiral.Debian – Admin.dev.secure.
Bonsoir,
j’ai voulu tester le robots.txt qui est un clone de celui de votre article sur ce site
http://www.frobee.com/robots-txt-check
et résultat en anglais, donc pour moi, je ne comprends rien.
Mais il m’indiqué 1 Error 26 Warnings 0 Notices
Line 4:
Missing User-agent directive! Found Disallow
Each rule record has to start with at least one User-agent statement. Blank lines delimit rule records and may not be used between User-agent and Disallow statements.
2: 3: # On empêche l’indexation des dossiers sensibles 4: Disallow: /cgi-bin 5: Disallow: /wp-login.php 6: Disallow: /wp-admin
Line 11:
Wildcard * in Disallow directive!
Besides the major search engines, most crawlers don’t support wildcard matches and will most likely misunderstand or ignore them.
9: Disallow: /wp-content/cache 10: Disallow: /wp-content/themes 11: Disallow: /category/*/* 12: Disallow: */trackback 13: Disallow: */feed
Line 12:
Wildcard * in Disallow directive!
Besides the major search engines, most crawlers don’t support wildcard matches and will most likely misunderstand or ignore them.
10: Disallow: /wp-content/themes 11: Disallow: /category/*/* 12: Disallow: */trackback 13: Disallow: */feed 14: Disallow: */comments
Line 13:
Wildcard * in Disallow directive!
Besides the major search engines, most crawlers don’t support wildcard matches and will most likely misunderstand or ignore them.
11: Disallow: /category/*/* 12: Disallow: */trackback 13: Disallow: */feed 14: Disallow: */comments 15: Disallow: /*?
problème ou pas ?
Merci
J’ai aussi un problème avec mon fichier robots.txt.
Je ne comprends pas pourquoi GoogleBot ne passe plus sur le site dpeuis le 19/01/2014.
Ci-dessous le contenu de mon fichier .txt. J’ai peut-être rajouté quelques chose qui bloque l’accès. Aidez moi, je ne sais plus quoi faire.
User-agent: *
Disallow: /*?
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Allow: /wp-content/uploads
Disallow: */trackback
Disallow: /*/feed
Disallow: /*/comments
Disallow: /cgi-bin
Disallow: /*.inc$
Disallow: /*.gz$
Disallow: /*.cgi$
Sitemap: http://keewiweb.com/sitemap_index.xml
Merci d’avance.
Bonjour à tous,
@Jonathan
Je me suis inspirée de beaucoup des tutos du site pour les appliquer au mien et je suis contente du résultat. Donc merci pour ces tutos bien expliqués (autant que ceux de Julio de BoiteaWeb dont j’aime également ça façon d’expliquer les choses clairement !), même une vraie novice comme moi peut y arriver…
Cependant, j’ai un petit souci avec ce tuto-ci. Quelqu’un m’a fait remarqué que mon fichier robots.txt contenait des erreurs en me donnant ce lien pour vérifier : http://tool.motoricerca.info/robots-checker.phtml
J’ai donc fait la vérification et effectivement de la ligne 11 à 29, il y a (selon l’outil d’analyse) des erreurs. J’ai ce message d’erreur en conclusion (si je peux dire ça) :
The following block of code contains some errors. You specified both the generic user-agent “*” and specific user-agents for this block of code; this could be misinterpreted. You specified both a generic path (“/” or empty disallow) and specific paths for this block of code; this could be misinterpreted. Please, remove all the reported errors and check again this robots.txt file.
WARNING: The tool has found some directory paths that don’t include a trailing slash character.
Since a missing trailing slash can be both a deliberate decision or an error, and since this tool can’t ipotize the real intentions of the webmaster, here follow some clarifications that could prevent a potential problem:
The following command will disable just the directory “private” and all its contents:
Disallow: /private/
…while the following command will disable both the “private” directory and any file or directory path starting with the text “/private” (so “/private-eye.html”, “/privateroom/page.html”, etc.):
Disallow: /private
Please be sure to use the correct syntax, according to your needs.
[Le bloc de code suivant contient des erreurs. Vous avez indiqué à la fois le user-agent générique “*” et user-agents spécifiques pour ce bloc de code, ce qui pourrait être mal interprété. Vous avez spécifié un chemin à la fois générique (“/” ou vide refuser) et des chemins spécifiques pour ce bloc de code, ce qui pourrait être mal interprété. S’il vous plaît, retirez toutes les erreurs signalées et vérifier à nouveau ce fichier robots.txt.
ATTENTION: L’outil a trouvé des chemins de répertoire qui ne comprennent pas un caractère de barre oblique.
Depuis un slash manquant peut être à la fois une décision délibérée ou d’une erreur, et que cet outil ne peut pas ipotize les intentions réelles du webmaster, ici suivre quelques précisions qui pourraient empêcher un problème potentiel :
La commande suivante permet de désactiver simplement le répertoire “privé” et tout son contenu :
Disallow: / private /
… alors que la commande suivante permet de désactiver à la fois le répertoire “privé” et un fichier ou un chemin d’accès commençant par le texte “/ privé” (si “/ privé eye.html”, “/ privateroom / page.html”, etc .):
Disallow: / privé
S’il vous plaît assurez-vous d’utiliser la syntaxe correcte, en fonction de vos besoins.]
Je voulais savoir ce que tu en penses ?
@Rosa : J’en pense que je n’ai jamais eu de problème d’indexation avec le code fournit dans l’article :)
Merci Mr.Jonathan pour cette tuto ^ ^
Google accorde de l’importance depuis 2012 au rendu utilisateur donc interdire l’indexation des js et surtout les css n’est plus une bonne idée à mon avis (cf : explorer une page comme google boot dans webmaster tool
Et dans le cas d’un multiste en sous-domaine le robots.txt ne change pas je pense mais doit-on indiquer les sitesmaps de chaque sous-domaines ?
@Jonathan: Je ne sais pas du tout. Il faudrait demander à quelqu’un de plus confirmé au niveau SEO que moi.
Est-ce que disallow wp-content empêche aussi l’affichage des médias en dehors du site (ex sur Google image) ?
Si non,comment faire pour empêcher totalement l’accès aux contenus de wp-content ?
@OlalaWeb: Non, le disallow empêche l’indexation, mais pas l’affichage dans le navigateur ;)
Bonjour,
une question :
si le blog wordpress n’est pas à la racine du site mais dans un dossier.
faut-il tout de même mettre le robots.txt à la racine ?
Bonjour,
il ne faut pas bloquer CSS et JS, tester là
https://www.google.com/webmasters/tools/mobile-friendly
vous verrez que cela pose un problème, à chaque fois cela me dit que l’accès à style.css est bloqué par le robots.txt, du coup le site ne passe pas, regarder pour votre site
https://www.google.com/webmasters/tools/mobile-friendly/?url=http%3A%2F%2Fwww.geekpress.fr
Bonjour,
J’ai un site auquel j’ai rajouter un blog WP. J’ai crée un répertoire « Blog » a la racine de mon site et j’ai mit dedans tout le contenu de WP.
Je voudrais savoir ou je devrais rajouter le mot « Blog » dans le fichier robots.txt ?
Pouvez-vs me refaire le code suivant au complet avec le mot « Blog » inserer au endroit qui faut qui sois inserer dans tout le code parce que j’ai peur de faire une erreur. Je suis novice donc peut d’experience.
Merci !
————
User-agent: *
# On empêche l’indexation des dossiers sensibles
Disallow: /cgi-bin
Disallow: /wp-login.php
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?
# On empêche l’indexation des fichiers sensibles
User-agent: Googlebot
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.swf$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# Autoriser Google Image
User-agent: Googlebot-Image
Disallow:
Allow: /*
# Autoriser Google AdSense
User-agent: Mediapartners-Google*
Disallow:
Allow: /*
Bonsoir,
Je me demande si votre exemple robots.txt est toujours valable, je vois qu’il ne faut ps bloquer JS et Css comme indiqué sur ce site
https://yoast.com/google-panda-robots-css-js/
mais l me semble que vous mettez disallow pour les 2, merci par avance