Temps de lecture : 6 minutes

Comment créer, utiliser et optimiser le fichier robots.txt

Le Robots.txt est un fichier texte que les webmasters créent pour indiquer aux robots (généralement les robots des moteurs de recherche) comment explorer les pages de leur site Web.

Sa création et son optimisation ont une importance en SEO.

Table des matières

Quelle est l’utilité du fichier Robots.txt ?

L’outil Robots.txt est un fichier qui indique aux bots des moteurs de recherche de ne pas analyser certaines pages, répertoires et sections d’un site Web.

La plupart des principaux moteurs de recherche en ligne comme Google, Bing ou Yahoo, reconnaissent et respectent le protocole formulé dans les fichiers Robots.txt.

L’analyse de logs en référencement permet de comprendre comment les robots des moteurs de recherche interagissent avec le site et d’optimiser le budget de crawl de Google en évitant d’indexer des parties inutiles du site.

Le fichier robots.txt fait partie du protocole d’exclusion (REP = Robots Exclusion Protocol), un groupe de normes Web qui régit la manière, dont les robots :

Explorent le Web
Accèdent au contenu et l’indexent.
Servent ce contenu aux utilisateurs.

Le REP comprend également des directives telles que les méta-robots, ainsi que des instructions concernant le traitement des liens par les moteurs de recherche (tels que « follow » ou « nofollow »).

Format de base :

User-agent : [nom de l’user-agent] Disallow: [la chaîne d’URL ne doit pas être explorée]

Ces deux lignes sont considérées comme un fichier robots.txt complet. Il peut contenir plusieurs ensembles de directives.

Chaque ensemble de directives apparaît sous la forme d’un ensemble séparé par un saut de ligne. Il peut être créé via un simple éditeur de texte.

Comment fonctionne le fichier robots.txt ?

Les bots des moteurs de recherche comme GoogleBot explorent le web à la découverte des contenus et indexent ces contenus afin qu’ils puissent être proposés dans leurs résultats en fonction de leurs degrés de pertinence.

Les spiders des moteurs de recherche, une fois arrivés sur un site Web, recherchent le fichier robots.txt avant d’explorer le site. Il donne aux crawlers l’instruction sur la manière dont il doit analyser le site en question. S’il ne contient aucune instruction ou qu’il est absent, le robot explorera le site sans restrictions.

Pourquoi le fichier Robots.txt est-il important en SEO ?

L’outil fichier robots.txt n’est pas crucial pour beaucoup de sites Web, en particulier les plus petits, mais le créer et l’utiliser peut avoir de nombreuses utilités, dont certaines peuvent avoir une réelle importance en termes de sécurité et d’optimisation SEO.

Avant qu’un robot tel que Googlebot explore une page Web, il vérifie d’abord s’il existe et, s’il en existe un, il suivra et respectera généralement les instructions contenues dans ce fichier.

Quelques fonctions utiles du robot.txt :

Empêcher l’indexation d’une page ou répertoire sensible (admin, pages de connexion, panier e-commerce…).
Prévenir la surcharge du serveur.
Blocage de l’accès à des sections entières de votre site, un blocage par mot de passe reste cependant plus prudent.
Empêcher les pages de résultats de recherche internes de votre site d’être explorées, indexées ou affichées dans les résultats de recherche.
Empêcher que du contenu en double n’apparaisse dans les SERP.
Spécifier l’emplacement des sitemaps pour les robots et faciliter l’indexation.
Maximiser le budget d’analyse en bloquant les pages sans importance, Googlebot peut consacrer davantage de votre budget d’exploration aux pages réellement importantes.
Empêcher les moteurs de recherche d’indexer certains fichiers sur votre site Web (images, PDF, etc).

Notez que bien que Google n’indexe généralement pas les pages Web bloquées dans le fichier robots.txt, mais il n’existe aucun moyen de garantir l’exclusion des résultats de la recherche à l’aide de ce fichier (préférez le noindex ou autres méthodes plus fiables).

Il est également inutile de bloquer les anciennes pages qui contiennent des redirections 301 ou des erreurs 404 afin de laisser les robots les explorer et prendre en compte les changements.

Quels sont les User-agents de Google ?

Chaque moteur de recherche s’identifie avec un agent utilisateur différent. Il est possible de définir des instructions personnalisées pour chacune d’elles dans votre fichier robots.txt.

Sachez qu’il peut inclure des directives pour autant d’agents d’utilisateur que vous le souhaitez. Vous pouvez utiliser le caractère générique étoile (*) pour attribuer des directives à tous les agents utilisateurs.

Il existe des centaines d’agents utilisateurs, voici les principaux permettant d’identifier les spiders de Google.

[table id=3/]

Comment utiliser le Robots.txt et le sitemap ?

Vous pouvez utiliser le robot.txt pour spécifier l’emplacement de votre plan Sitemap pour les moteurs de recherche.

Voici un exemple en 2 lignes utilisant la directive sitemap :

User-agent : *
Allow: /Sitemap : https://www.nomdusite/sitemap_index.xml

Notez qu’il n’est pas nécessaire de répéter la directive sitemap plusieurs fois pour chaque agent utilisateur. Il est donc préférable d’inclure les directives de sitemap au début ou à la fin de votre fichier robots.txt.

Vous pouvez inclure autant de sitemaps que vous le souhaitez.

Quelles sont les principales directives du robot.txt ?

Voici les principales directives pour autoriser ou interdire les crawlers de Google.

Exemple de fichier robots.txt

Voici quelques exemples de robots.txt configuré pour un site www.nomdusite.com. Il peut être créé via un simple éditeur de texte.

URL du fichier Robots.txt : www.nomdusite.com/robots.txt

Bloquer tous les bots de tout contenu

Agent utilisateur : * Dissalow : /

L’utilisation de cette syntaxe indique à tous les spiders de ne pas explorer les pages de du site, y compris la page d’accueil.

Permettre à tous les spiders d’accéder à tout le contenu

Agent utilisateur : * Dissalow:

L’utilisation de cette syntaxe indique aux bots d’analyser toutes les pages du site, y compris la page d’accueil.

Blocage d’un robot d’indexation spécifique à partir d’un dossier spécifique

Agent utilisateur : Googlebot Dissalow: / sous-dossier /

Il indique uniquement au robot de Google (nom de l’agent utilisateur Googlebot) de ne pas analyser les pages contenant la chaîne URL www.nomdusite.com/sous-dossier/.

Blocage d’un robot d’indexation spécifique à partir d’une page Web spécifique

Agent utilisateur : Bingbot Interdit: /sous-dossier/page.html

Il indique uniquement au crawler de Bing d’éviter d’analyser la page spécifique à l’adresse www.nomdusite.com/sous-dossier/page.html.

Création d’un robot.txt typique

Dans un scénario typique, votre il doit avoir le contenu suivant.

User-agent : * Allow: Sitemap : https://www.nomdusite.com/sitemap.xml

Comment vérifier la présence du robot.txt sur un site internet ?

Si vous en avez déjà un sur votre site Web, il sera accessible à l’adresse suivante :

https://www.nomdusite.ext/robots.txt

Comment vérifier votre fichier robots.txt pour les erreurs ?

Vous pouvez utiliser la Search Console de Google pour vérifier votre site map ou des outils comme XML Sitemap Validator.

https://www.xml-sitemaps.com/validate-xml-sitemap.html

https://support.google.com/webmasters/answer/7451001?hl=fr

Où placer votre fichier sur votre site ?

Il est nécessaire de placer vos fichiers robots.txt dans les répertoires racines des domaines ou sous-domaines auxquels ils s’appliquent.

Par exemple, pour contrôler le comportement d’analyse sur nomdusite.com, il doit être accessible à nomdusite.com/robots.txt.

Si vous souhaitez contrôler l’analyse des bots sur un sous-domaine tel que blog.nomdusite.com, il doit être accessible à l’adresse blog.nomdusite.com/robots.txt.

Quelles sont les meilleures pratiques pour le Robots.txt en matière de référencement naturel ?

Voici quelques conseils et bonnes pratiques à suite pour gérer au mieux les interdictions et le référencement de votre site internet.

- Ne bloquez pas les dossiers CSS ou JS. Lors du processus d’exploration et d’indexation, Google peut afficher un site Web comme un véritable utilisateur. Si vos pages ont besoin du JS et du CSS pour fonctionner correctement, ils ne doivent pas être bloqués.
- Les liens sur les pages bloquées par robots.txt ne seront pas suivis. Utilisez un mécanisme de blocage différent si les liens doivent être suivis comme une <meta name= » robots » content= » noindex, follow »>
- Ne l’utilisez pas pour empêcher que des données sensibles soient référencées ou accessibles. Si vous souhaitez bloquer votre page ou répertoire à partir des résultats de recherche, utilisez une méthode différente, telle que la protection par mot de passe ou la directive méta noindex.
- Testez le et assurez-vous que vous ne bloquez aucune partie de votre site Web que vous souhaitez voir apparaître dans les moteurs de recherche.
- Sur un site WordPress, il n’est pas nécessaire de bloquer l’accès à vos dossiers wp-admin et wp-include. WordPress fait un excellent travail en utilisant la balise meta-robots.
- Inutile de spécifier des règles différentes pour chaque moteur de recherche, cela peut prêter à confusion et être difficile à tenir à jour. Il vaut mieux utiliser user-agent : * et fournir un ensemble de règles pour tous les bots.
- Si vous le modifiez et souhaitez le mettre à jour plus rapidement, vous pouvez envoyer votre URL du fichier modifié à Google.

[r4w_sc_sister_pages_link]

Avez vous aimé cet article ?

Cliquez sur les étoiles pour donner une note

Note moyenne 5 / 5. Nombre de votes : 10

Pas de votes pour le moment, soyez le premier à voter.