Parlons de vos projets, appelez nous

Crawl budget Google : exploration Googlebot et erreurs d’indexation

Net Offensive

Temps de lecture : 9 minutes
5
(2)

Fonctionnement et optimisation du Budget de Crawl en référencement

Crawl Budget de Google
Lorsque l’on parle de référencement naturel, le premier réflexe est de parler d’optimisation des contenus, de la sémantique, du netlinking. Le plus souvent, le budget de crawl est négligé lors de l’optimisation d’un site Web. Beaucoup de propriétaires de sites internet ne réalisent pas qu’il s’agit d’un facteur important pour le référencement naturel et générer du trafic.

Lorsque vous ajoutez de nouvelles pages et mettez à jour des pages existantes, vous souhaitez que les moteurs de recherche les détectent dès que possible. Plus vite Google indexera ou actualisera ces pages, plus vite vous pourrez en tirer parti pour votre référencement naturel.

Dans cet article nous allons voir ce qu’est le budget de crawl. Pourquoi est-il important de l’optimiser ? Quels sont les facteurs qui peuvent l’influencer ?

Comment fonctionne l’exploration d’un site pour Google ?

Les moteurs de recherche comme Google utilisent des robots Web, appelés «spiders»

Les moteurs de recherche comme Google utilisent des robots Web, appelés «spiders», pour explorer les pages Web, collecter des informations à leur sujet et les ajouter à leur index. Ces « araignées » détectent également les liens sur les pages visitées et tentent également d’explorer ces nouvelles pages. C’est en suivant les liens, que le robot de Google appelé « Googlebot » parcourt le web et découvre de nouvelles pages, de nouveaux sites…

Toutes les pages ne sont pas analysées le même jour, certaines sont ajoutées à une liste de tâches à réaliser plus tard.

Qu’est-ce que le budget de crawl ?

Qu'est ce que le budget de crawl ?

Google doit explorer des milliards de sites web et une quantité incroyable de pages qui les composent. Ne pouvant pas tout explorer ni le faire en permanence, Google se doit par souci d’économie des ressources serveurs de fixer des règles et des priorités.

Google a donc besoin d’un moyen de hiérarchiser ses efforts d’exploration.  L’attribution d’un budget d’analyse à chaque site Web permet d’aider le moteur de recherche à effectuer cette tâche.

Le nombre de fois qu’un spider du moteur de recherche Google explore votre site Web dans un laps de temps donné correspond à ce qui est appelé «budget d’analyse» ou « crawl budget ». Ce nombre varie légèrement d’un jour à l’autre, mais dans l’ensemble, il est relativement stable.

Le nombre de pages explorées par Google chaque jour est déterminé par la taille de votre site, la «santé» de votre site et sa popularité (nombre et qualité des liens réalisés vers votre site).

Le budget de crawl est partagé par tous les robots de Google dont Googlebot est le principal.

  • AdSense pour mobile : user-agent = Mediapartners-Google
  • AdSense : user-agent = Mediapartners-Google
  • AdsBot Web pour mobile Android : user-agent = AdsBot-Google-Mobile
  • AdsBot Web pour mobile : user-agent = AdsBot-Google-Mobile
  • AdsBot : user-agent = AdsBot-Google
  • Googlebot Google Images : user-agent = Googlebot-Image et Googlebot
  • Googlebot Google Actualités : user-agent = Googlebot-News et Googlebot
  • Googlebot Google Vidéos : user-agent = Googlebot-Video et Googlebot
  • Googlebot Ordinateur et mobile : user-agent = Googlebot

Le budget de crawl est attribué selon 2 facteurs :

  • La limite d’analyse : les robots d’exploration des moteurs de recherche sont conçus pour éviter de surcharger un serveur Web avec des demandes, ils ajustent donc le crawl à ces limites.
  • La planification d’exploration : les robots explorent un site de manière variable selon sa popularité, le nombre de requêtes pour lesquelles il est positionné, la fraîcheur des mises à jour, les pages les plus visitées…
Qu'est ce que le budget de crawl ?
Exemple de statistiques d’exploration de Google sur un site. 229 pages explorées par jour en moyenne.

Pourquoi le Crawl Budget est important pour le référencement naturel ?

Un taux d’exploration optimum aidera vos sites Web à être indexés efficacement et rapidement. Si vous gaspillez le budget d’exploration, Google ne pourra pas analyser votre site Web de manière efficace. Il passera du temps sur des parties du site qui importent peu, des pages sans intérêt, au détriment des pages que vous souhaitez positionner.

Ce manque d’optimisation peut avoir pour conséquence que des parties importantes de votre site Web ne sont pas découvertes ou peu actualisées, limitant leur potentiel en terme de référencement naturel. Gaspiller le budget d’exploration nuit à la performance de votre référencement.

Le crawl Budget peut devenir un enjeu très important pour les sites volumineux de plus de 10 000 pages. Bien que les sites plus petits aient moins à se soucier du budget d’exploration, l’optimisation du crawl budget peut toujours vous aider à obtenir de meilleurs résultats dans les pages de résultats de Google.

Comment optimiser le budget de crawl ?

De nombreux leviers existent pour optimiser le budget d’exploration et concentrer les ressources des robots de Google vers les contenus les plus intéressants.

Facteurs ayant une incidence sur le budget d’analyse :

  • Dupliquer le contenu
  • Plans de Sitemap
  • Contenu de faible qualité
  • Pages d’erreur 404 et autre
  • Architecture du site
  • Vitesse du site
  • Chaînes de redirection
  • Robots.txt
  • Popularité
  • Liens internes

Contenus dupliqués

Quelle que soit la source du contenu, le contenu dupliqué peut avoir un impact négatif sur vos efforts de référencement et gaspiller le budget d’exploration à un niveau important.

Le contenu dupliqué peut avoir diverses origines :

  • La duplication de contenu interne peut se produire lorsque différentes URL pointent vers une seule page.
  • Les URL de base ajoutées à des paramètres créent X pages dupliquées
  • En e-com principalement, les options de tri et de filtrage créent une duplication interne non intentionnelle

Google ne veut pas gaspiller des ressources en indexant plusieurs pages avec le même contenu.

Les sitemaps

Les sitemaps XML doivent contenir les URL les plus importantes que GoogleBots doit consulter le plus souvent. Google admet que le sitemap XML est utilisé dans le processus de création d’une liste d’URL à analyser. Il faut garder le sitemap XML à jour, sans erreurs ni redirections.

les pages non indexables et les URL renvoyant des codes 3xx, 4XX et 5xx ne doivent pas être incluses dans votre sitemap XML.

Contenu de faible qualité

Plus une page est riche et contient de mots, plus elle est jugée de qualité et est explorée régulièrement. Les pages avec très peu de contenu ne sont pas intéressantes pour les moteurs de recherche. Gardez-les au minimum ou évitez-les complètement si possible.

Pages d’erreur 404 et autre

Si un site Web contient un nombre important d’erreurs 404 et 404 non corrigées,  il faut absolument les corriger.

Vérifiez si l’URL de l’erreur 404 a une page équivalente ou similaire sur le site pouvant être utile aux utilisateurs. Si oui, redirigez l’URL cassée vers la nouvelle via une redirection.

Architecture du site

Les structures de site Web profondes et complexes ne sont pas seulement désagréables pour les utilisateurs, mais sont également difficiles à explorer pour les robots.

Essayez toujours de garder les pages les plus importantes aussi proches que possible de la page d’accueil.

Une bonne méthode consiste à organiser le contenu horizontalement dans la structure du site plutôt que verticalement.

En réalisant un crawl de votre site avec les outils adaptés, vous pourrez obtenir une représentation visuelle de vos pages et liens, et identifier plus facilement les erreurs et points bloquants.

Vitesse du site

Un site Web à chargement plus rapide signifie que Google peut explorer plus d’URL dans le même temps donné. Les pages dont le chargement est long ont un impact négatif sur votre budget d’analyse. C’est un signe pour les robots de Google que votre site Web ne peut pas gérer la demande, et que votre limite d’analyse doit être ajustée à la baisse.

Les temps de chargement des pages et les délais d’attente élevés nuisent considérablement à l’expérience utilisateur de vos visiteurs, ce qui réduit également le taux de conversion.

Redirections en séries

Lorsque votre site Web comporte de longues chaînes de redirection, c’est-à-dire un grand nombre de redirections 301 et 302 consécutives, chaque URL que vous redirigez gaspille un peu de votre budget d’analyse.

Si votre site contient un nombre déraisonnable de redirections, les robots cesseront de suivre les instructions et l’URL de destination finale risque d’être ignorée. Chaque redirection constitue une perte d’une unité de votre budget d’analyse alloué. Éviter de multiplier les changements d’url et redirections pour vos pages.

Robots.txt

Le fichier Robots.txt indique aux robots ce qu’il faut analyser et ce qu’il ne faut pas explorer. En indiquant aux bots ce qu’il est nécessaire de crawler et ce qui ne l’est pas, vous évitez de gaspiller la précieuse ressource de crawl.

Ajoutez au fichier robots.txt tous les répertoires et les URL que vous décidez de ne pas analyser. Ne pas bloquer les pages importantes par erreur.

Popularité

D’après de nombreux tests, il existe une forte corrélation entre le nombre de visites des robots de Google et le nombre de liens externes. La popularité et le netlinking seraient donc des facteurs importants pour augmenter le taux de crawl d’un site.

Il existe une relation assez forte entre l’autorité de page et le budget d’analyse.

Liens internes

Les liens qui unissent les pages de votre site Web jouent un rôle important dans l’optimisation du budget d’analyse. Les pages qui ont peu de liens internes retiennent beaucoup moins l’attention des moteurs de recherche que les pages plus liées. Assurez-vous que vos pages les plus importantes reçoivent de nombreux liens internes. Les pages récemment explorées se classent généralement mieux dans les moteurs de recherche.

Une structure de site bien entretenue avec un maillage internet pertinent rend votre contenu facilement identifiable par les robots de recherche sans gaspiller le budget de crawl.

Avez vous aimé cet article ?

Cliquez sur les étoiles pour donner une note

Note moyenne 5 / 5. Nombre de votes : 2