Parlons de vos projets, appelez nous

Pourquoi et comment optimiser le Crawl budget Google ?

Net Offensive

Mise à jour le

Temps de lecture : 7 minutes
5
(2)

Fonctionnement et optimisation du Budget de Crawl en référencement

Crawl Budget de Google
Lorsque l’on parle de référencement naturel, le premier réflexe est de parler d’optimisation des contenus, de la sémantique, du netlinking. Le plus souvent, la notion de fonctionnement du budget de crawl est négligée lors de l’optimisation d’un site Web. Beaucoup de webmasters de sites internet ne réalisent pas qu’il s’agit d’un facteur d’importance pour le référencement naturel et générer du trafic.

Lorsque vous ajoutez de nouvelles pages et mettez à jour des pages existantes, vous souhaitez que les moteurs de recherche les détectent dès que possible. Plus vite Google fera l’indexation ou actualisera ces pages, plus vite vous pourrez en tirer parti pour votre référencement naturel en ligne.

Dans cet article nous allons voir ce qu’est le budget de crawl et vous donner les éléments et conseils clefs. Pourquoi est-il important de l’optimiser ? Quels sont les facteurs qui peuvent l’influencer ?

Comment fonctionne l’exploration d’un site pour Google ?

Les moteurs de recherche comme Google utilisent des robots Web, appelés «spiders»

Les moteurs de recherche comme Google utilisent des robots Web, appelés «spiders», pour explorer les pages Web, collecter des informations à leur sujet et les ajouter à leur index.

Ces « araignées » détectent également les liens sur les pages visitées et tentent également d’explorer ces nouvelles pages. C’est en suivant les liens, que le robot de Google appelé « Googlebot » parcourt le web et découvre de nouvelles pages, de nouveaux sites…

Toutes les pages ne sont pas analysées le même jour, certaines sont ajoutées à une liste de tâches à réaliser plus tard.

Qu’est-ce que le budget de crawl ?

Qu'est ce que le budget de crawl ?

Google doit explorer des milliards de sites web et une quantité incroyable de pages qui les composent. Ne pouvant pas tout explorer ni le faire en permanence, Google se doit par souci d’économie des ressources serveurs de fixer des critères et des priorités.

Google a donc besoin d’un moyen de hiérarchiser ses efforts. L’attribution d’un budget d’analyse à chaque site Web permet d’aider le moteur de recherche à effectuer cette tâche.

Le nombre de fois qu’un spider du moteur de recherche Google explore votre site Web dans un laps de temps donné correspond à ce qui est appelé «budget d’analyse» ou « crawl budget ». La fréquence varie légèrement d’un jour à l’autre, mais dans l’ensemble, il est relativement stable.

Le nombre de pages explorées par Google chaque jour est déterminé par la taille de votre site, la «santé» de votre site et sa popularité (nombre et qualité des liens réalisés vers votre site).

Le budget de crawl est partagé par tous les robots de Google dont Googlebot est le principal.

  • AdSense pour mobile : user-agent = Mediapartners-Google
  • AdSense : user-agent = Mediapartners-Google
  • AdsBot Web pour mobile Android : user-agent = AdsBot-Google-Mobile
  • AdsBot Web pour mobile : user-agent = AdsBot-Google-Mobile
  • AdsBot : user-agent = AdsBot-Google
  • Google Images : user-agent = Googlebot-Image
  • Google Actualités : user-agent = Googlebot-News
  • Google Vidéos : user-agent = Googlebot-Video
  • Ordinateur et mobile : user-agent = Googlebot

Le budget de crawl est attribué selon 2 facteurs :

  • La limite d’analyse : les robots d’exploration des moteurs de recherche sont conçus pour éviter de surcharger un serveur Web avec des demandes, ils ajustent donc la fréquence de crawl en fonction de ces limites.
  • La planification : les robots explorent un site de manière variable selon différents critères qui sont, sa popularité, le nombre de requêtes pour lesquelles il est positionné, la fraîcheur des mises à jour, les pages les plus visitées…
Qu'est ce que le budget de crawl ?
Exemple de statistiques d’exploration de Google sur un site. 229 pages explorées par jour en moyenne.

Pourquoi le Crawl Budget est important pour le référencement naturel ?

Un taux d’exploration optimum aidera vos sites Web à être indexés efficacement et rapidement. Si vous gaspillez ce budget, Google ne pourra pas analyser votre site Web de manière efficace. Il passera du temps sur des parties du site qui importent peu, des pages sans intérêt, au détriment des pages que vous souhaitez positionner.

Ce manque d’optimisation peut avoir pour conséquence que des parties importantes de votre site Web ne sont pas découvertes ou peu actualisées, limitant leur potentiel en terme de référencement naturel. Gaspiller le budget nuit à la performance de votre référencement.

Le crawl Budget peut devenir un enjeu très important pour les sites volumineux avec des milliers de pages. Bien que les sites plus petits aient moins à se soucier du budget de crawl, l’optimisation du crawl budget et l’analyse de logs peut toujours vous aider à obtenir de meilleurs résultats dans les pages de résultats de Google.

Comment optimiser le budget de crawl ?

De nombreux leviers existent pour optimiser ce budget et concentrer les ressources des robots de Google vers les contenus les plus intéressants.

Facteurs ayant une incidence sur le budget d’analyse :

  • Dupliquer le contenu
  • Plans de Sitemap
  • Contenu de faible qualité
  • Pages d’erreur 404 et autre
  • Architecture du site
  • Vitesse du site
  • Chaînes de redirection
  • Robots.txt
  • Popularité
  • Liens internes

Contenus dupliqués

Quelle que soit la source du contenu, le contenu dupliqué peut avoir un impact négatif sur vos efforts de référencement et gaspiller le budget à un niveau important.

Le contenu dupliqué peut avoir diverses origines :

  • La duplication de contenu interne peut se produire lorsque différentes URL pointent vers une seule page.
  • Les URL de base ajoutées à des paramètres créent X pages dupliquées
  • En e-com principalement, les options de tri et de filtrage créent une duplication interne non intentionnelle

Google ne veut pas gaspiller des ressources en indexant plusieurs pages avec le même contenu.

Les sitemaps

Les sitemaps XML doivent contenir les URL les plus importantes que GoogleBots doit consulter le plus souvent. Google admet que le sitemap XML est utilisé dans le processus de création d’une liste d’URL à analyser pour indexation. Il faut garder le sitemap XML à jour, sans erreurs ni redirections.

les pages non indexables et les URL renvoyant des codes 3xx, 4XX et 5xx ne doivent pas être incluses dans votre sitemap XML.

Contenu de faible qualité

Plus une page est riche et contient de mots, plus elle est jugée de qualité et est explorée régulièrement. Les pages avec très peu de contenu ne sont pas intéressantes pour les moteurs de recherche. Gardez-les au minimum ou évitez-les complètement si possible.

Pages d’erreur 404 et autre

Si un site Web contient un nombre important d’erreurs 404 et 404 non corrigées,  il faut absolument les corriger.

Vérifiez si l’URL de l’erreur 404 a une page équivalente ou similaire sur le site pouvant être utile aux utilisateurs. Si oui, redirigez l’URL cassée vers la nouvelle via une redirection.

Architecture du site

Les structures de site Web profondes, complexes, avec des milliers de pages, ne sont pas seulement désagréables pour les utilisateurs, mais sont également difficiles à explorer pour les robots.

Essayez toujours de garder les pages les plus importantes aussi proches que possible de la page d’accueil.

Une bonne méthode consiste à organiser le contenu horizontalement dans la structure du site plutôt que verticalement.

En réalisant un crawl de votre site avec les outils adaptés, vous pourrez obtenir une représentation visuelle de vos pages et liens, et identifier plus facilement les erreurs et points bloquants.

Vitesse du site

Un site Web à chargement plus rapide signifie que Google peut explorer plus d’URL dans le même temps donné. Les pages dont le chargement est long ont un impact négatif sur votre budget d’analyse. C’est un signe pour les robots de Google que votre site Web ne peut pas gérer la demande, et que votre limite d’analyse doit être ajustée à la baisse.

Les temps de chargement des pages et les délais d’attente élevés nuisent considérablement à l’expérience utilisateur de vos visiteurs, ce qui réduit également le taux de conversion.

Redirections en séries

Lorsque votre site Web comporte de longues chaînes de redirection, c’est-à-dire un grand nombre de redirections 301 et 302 consécutives, chaque URL que vous redirigez gaspille un peu de votre budget d’analyse.

Si votre site contient un nombre déraisonnable de redirections, les robots cesseront de suivre les instructions et l’URL de destination finale risque d’être ignorée. Chaque redirection constitue une perte d’une unité de votre budget d’analyse alloué. Éviter de multiplier les changements d’url et redirections pour vos pages.

Robots.txt

Le fichier Robots.txt est important en référencement, car il indique aux robots ce qu’il faut analyser et ce qu’il ne faut pas explorer. En indiquant aux bots ce qu’il est nécessaire de crawler et ce qui ne l’est pas, vous évitez de gaspiller la précieuse ressource de crawl.

Ajoutez au fichier robots.txt tous les répertoires et les URL que vous décidez de ne pas analyser. Ne pas bloquer les pages importantes par erreur.

Popularité

D’après de nombreux tests, il existe une forte corrélation entre le nombre de visites des robots de Google et le nombre de liens externes. La popularité et le netlinking seraient donc des facteurs importants pour augmenter le taux de crawl d’un site.

Il existe une relation assez forte entre l’autorité de page et le budget d’analyse.

Liens internes

Les liens qui unissent les pages de votre site Web jouent un rôle important dans l’optimisation du budget d’analyse. Les pages qui ont peu de liens internes retiennent beaucoup moins l’attention des moteurs de recherche que les pages plus liées. Assurez-vous que vos pages les plus importantes reçoivent de nombreux liens internes. Les pages récemment explorées se classent généralement mieux dans les moteurs de recherche.

Une structure de site bien entretenue avec un maillage internet pertinent rend votre contenu facilement identifiable par les robots de recherche sans gaspiller le budget de crawl.

Les webmasters qui souhaitent suivre le processus d’indexation et mieux comprendre les interactions de Googlebot avec leur site peuvent recourir à l’utilisation d’un outil d’analyse de logs du serveur.

L’utilisation d’un outil d’analyse du crawl et des logs permet de mieux comprendre la notion de crawl budget, de corriger des erreurs et optimiser les éléments qui l’impactent.

Si vous souhaitez des conseils à ce sujet et augmenter votre trafic en ligne, notre agence SEO est à votre écoute.

Avez vous aimé cet article ?

Cliquez sur les étoiles pour donner une note

Note moyenne 5 / 5. Nombre de votes : 2

Pas de votes pour le moment, soyez le premier à voter.