Parlons de vos projets, appelez nous

Créer le fichier robots.txt : gérer l’indexation en référencement

Net Offensive

Temps de lecture : 8 minutes
5
(1)

Comment utiliser et optimiser le fichier robots.txt pour l’indexation et le référencement ?

Créer le fichier robots.txt : outil d'indexation SEO

Qu’est-ce que le fichier Robots.txt ?

L’outil Robots.txt est un fichier qui indique aux bots des moteurs de recherche de ne pas analyser certaines pages, répertoires et sections d’un site Web.

La plupart des principaux moteurs de recherche en ligne comme Google, Bing ou Yahoo, reconnaissent et respectent le protocole formulé dans les fichiers Robots.txt.

Le fichier robots.txt fait partie du protocole d’exclusion (REP = Robots Exclusion Protocol), un groupe de normes Web qui régit la manière, dont les robots :

  • Explorent le Web
  • Accèdent au contenu et l’indexent.
  • Servent ce contenu aux utilisateurs.

Le REP comprend également des directives telles que les méta-robots, ainsi que des instructions concernant le traitement des liens par les moteurs de recherche (tels que « follow » ou « nofollow »).

Format de base :

User-agent : [nom de l’user-agent]
Disallow: [la chaîne d’URL ne doit pas être explorée]

Ces deux lignes sont considérées comme un fichier robots.txt complet. Il peut contenir plusieurs ensembles de directives.

Chaque ensemble de directives apparaît sous la forme d’un ensemble séparé par un saut de ligne. Il peut être créé via un simple éditeur de texte.

Comment fonctionne le fichier robots.txt ?

Les bots des moteurs de recherche comme GoogleBot explorent le web à la découverte des contenus et indexent ces contenus afin qu’ils puissent être proposés dans leurs résultats en fonction de leurs degrés de pertinence.

Les spiders des moteurs de recherche, une fois arrivés sur un site Web, recherchent le fichier robots.txt avant d’explorer le site. Il donne aux crawlers l’instruction sur la manière dont il doit analyser le site en question. S’il ne contient aucune instruction ou qu’il est absent, le robot explorera le site sans restrictions.

Pourquoi le fichier Robots.txt est-il important ?

L’outil fichier robots.txt n’est pas crucial pour beaucoup de sites Web, en particulier les plus petits, mais le créer et l’utiliser peut avoir de nombreuses utilités, dont certaines peuvent avoir une réelle importance en termes de sécurité et d’optimisation SEO.

Avant qu’un robot tel que Googlebot explore une page Web, il vérifie d’abord s’il existe et, s’il en existe un, il suivra et respectera généralement les instructions contenues dans ce fichier.

Quelques fonctions utiles du robot.txt :

  • Empêcher l’indexation d’une page ou répertoire sensible (admin, pages de connexion, panier e-commerce…).
  • Prévenir la surcharge du serveur.
  • Blocage de l’accès à des sections entières de votre site, un blocage par mot de passe reste cependant plus prudent.
  • Empêcher les pages de résultats de recherche internes de votre site d’être explorées, indexées ou affichées dans les résultats de recherche.
  • Empêcher que du contenu en double n’apparaisse dans les SERP.
  • Spécifier l’emplacement des sitemaps.
  • Maximiser le budget d’analyse en bloquant les pages sans importance, Googlebot peut consacrer davantage de votre budget d’exploration aux pages réellement importantes.
  • Empêcher les moteurs de recherche d’indexer certains fichiers sur votre site Web (images, PDF, etc).

Notez que bien que Google n’indexe généralement pas les pages Web bloquées dans le fichier robots.txt, mais il n’existe aucun moyen de garantir l’exclusion des résultats de la recherche à l’aide de ce fichier (préférez le noindex ou autres méthodes plus fiables).

Les User-agents de Google

Les User-agents de Google à utiliser dans son sitemap

Chaque moteur de recherche s’identifie avec un agent utilisateur différent. Il est possible de définir des instructions personnalisées pour chacune d’elles dans votre fichier robots.txt.

Sachez qu’il peut inclure des directives pour autant d’agents d’utilisateur que vous le souhaitez. Vous pouvez utiliser le caractère générique étoile (*) pour attribuer des directives à tous les agents utilisateurs.

Il existe des centaines d’agents utilisateurs, voici les principaux permettant d’identifier les spiders de Google.

[table id=3/]

Robots.txt et sitemap

Vous pouvez utiliser le robottxt pour spécifier l'emplacement de votre plan Sitemap pour les moteurs de recherche.

Vous pouvez utiliser le robot.txt pour spécifier l’emplacement de votre plan Sitemap pour les moteurs de recherche.

Voici un exemple en 2 lignes utilisant la directive sitemap :

User-agent : *
Allow: /Sitemap : https://www.nomdusite/sitemap_index.xml

Notez qu’il n’est pas nécessaire de répéter la directive sitemap plusieurs fois pour chaque agent utilisateur. Il est donc préférable d’inclure les directives de sitemap au début ou à la fin de votre fichier robots.txt.

Vous pouvez inclure autant de sitemaps que vous le souhaitez.

Les principales directives du robot.txt

Voici les principales directives pour autoriser ou interdire les crawlers de Google.

Les principales directives du robot.txt pour Google

Exemple de fichier robots.txt

Voici quelques exemples de robots.txt configuré pour un site www.nomdusite.com. Il peut être créé via un simple éditeur de texte.

URL du fichier Robots.txt : www.nomdusite.com/robots.txt

Bloquer tous les bots de tout contenu

Agent utilisateur : *
Dissalow : /

L’utilisation de cette syntaxe indique à tous les spiders de ne pas explorer les pages de du site, y compris la page d’accueil.

Permettre à tous les spiders d’accéder à tout le contenu

Agent utilisateur : *
Dissalow:

L’utilisation de cette syntaxe indique aux bots d’analyser toutes les pages du site, y compris la page d’accueil.

Blocage d’un robot d’indexation spécifique à partir d’un dossier spécifique

Agent utilisateur : Googlebot
Dissalow: / sous-dossier /

Il indique uniquement au robot de Google (nom de l’agent utilisateur Googlebot) de ne pas analyser les pages contenant la chaîne URL www.nomdusite.com/sous-dossier/.

Blocage d’un robot d’indexation spécifique à partir d’une page Web spécifique

Agent utilisateur : Bingbot
Interdit: /sous-dossier/page.html

Il indique uniquement au crawler de Bing d’éviter d’analyser la page spécifique à l’adresse www.nomdusite.com/sous-dossier/page.html.

Création d’un robot.txt typique

Dans un scénario typique, votre il doit avoir le contenu suivant.

User-agent : *
Allow: /

Sitemap : https://www.nomdusite.com/sitemap.xml

Comment vérifier la présence du robot.txt ?

Si vous en avez déjà un sur votre site Web, il sera accessible à l’adresse suivante :

https://www.nomdusite.ext/robots.txt

Comment vérifier votre fichier robots.txt pour les erreurs ?

Vous pouvez utiliser la Search Console de Google pour vérifier votre site map ou des outils comme XML Sitemap Validator.

https://www.xml-sitemaps.com/validate-xml-sitemap.html

https://support.google.com/webmasters/answer/7451001?hl=fr

Où placer votre fichier ?

L'emplacement du fichier robot.txt

Il est nécessaire de placer vos fichiers robots.txt dans les répertoires racines des domaines ou sous-domaines auxquels ils s’appliquent.

Par exemple, pour contrôler le comportement d’analyse sur nomdusite.com, il doit être accessible à nomdusite.com/robots.txt.

Si vous souhaitez contrôler l’analyse des bots sur un sous-domaine tel que blog.nomdusite.com, il doit être accessible à l’adresse blog.nomdusite.com/robots.txt.

Robots.txt et meilleures pratiques en matière de référencement

Voici quelques conseils et bonnes pratiques à suite pour gérer au mieux les interdictions et le référencement de votre site internet.

  • Ne bloquez pas les dossiers CSS ou JS. Lors du processus d’exploration et d’indexation, Google peut afficher un site Web comme un véritable utilisateur. Si vos pages ont besoin du JS et du CSS pour fonctionner correctement, ils ne doivent pas être bloqués.
  • Les liens sur les pages bloquées par robots.txt ne seront pas suivis. Utilisez un mécanisme de blocage différent si les liens doivent être suivis comme une <meta name= » robots  »  content= » noindex, follow »>
  • Ne l’utilisez pas pour empêcher que des données sensibles soient référencées ou accessibles. Si vous souhaitez bloquer votre page ou répertoire à partir des résultats de recherche, utilisez une méthode différente, telle que la protection par mot de passe ou la directive méta noindex.
  • Testez le et assurez-vous que vous ne bloquez aucune partie de votre site Web que vous souhaitez voir apparaître dans les moteurs de recherche.
  • Sur un site WordPress, il n’est pas nécessaire de bloquer l’accès à vos dossiers wp-admin et wp-include. WordPress fait un excellent travail en utilisant la balise meta-robots.
  • Inutile de spécifier des règles différentes pour chaque moteur de recherche, cela peut prêter à confusion et être difficile à tenir à jour. Il vaut mieux utiliser user-agent : * et fournir un ensemble de règles pour tous les bots.
  • Si vous le modifiez et souhaitez le mettre à jour plus rapidement, vous pouvez envoyer votre URL du fichier modifié à Google.

A lire également :

Avez vous aimé cet article ?

Cliquez sur les étoiles pour donner une note

Note moyenne 5 / 5. Nombre de votes : 1