Etre premier sur Google et y rester Nous créons une stratégie SEO gagnante de A à Z. Je veux améliorer ma visibilité
Temps de lecture : 8 minutes
5
(10)

Définition, fonctionnement et optimisation du Budget de Crawl en référencement

Crawl Budget de Google
Lorsque l’on parle de référencement naturel, le premier réflexe est de parler d’optimisation des contenus, de la sémantique, du netlinking. Le plus souvent, la notion de fonctionnement du budget de crawl est négligée, comme la structure du site et de son optimisation SEO.

Beaucoup de webmasters de sites internet ne réalisent pas qu’il s’agit d’un facteur d’importance pour le référencement naturel et générer du trafic.

Lorsque vous ajoutez de nouvelles pages et mettez à jour des pages existantes, vous souhaitez que les moteurs de recherche les détectent dès que possible. Plus vite Google fera l’indexation ou actualisera ces pages, plus vite vous pourrez en tirer parti pour votre référencement naturel en ligne.

Dans cet article nous allons voir ce qu’est le budget de crawl et vous donner les éléments et conseils clefs. Pourquoi est-il important de l’optimiser ? Quels sont les facteurs qui peuvent l’influencer ?

Comment fonctionne l’exploration d’un site pour Google et ses robots ?

Les moteurs de recherche comme Google utilisent des robots Web, appelés «spiders»

Les moteurs de recherche comme Google utilisent des robots Web, appelés «spiders», pour explorer les pages Web, collecter des informations à leur sujet et les ajouter à leur index.

Ces “araignées” détectent également les liens sur les pages visitées et tentent également d’explorer ces nouvelles pages. C’est en suivant les liens, que le robot de Google appelé “Googlebot” parcourt le web et découvre de nouvelles pages, de nouveaux sites…

Toutes les pages ne sont pas analysées le même jour, certaines sont ajoutées à une liste de tâches à réaliser plus tard.

Qu’est-ce que la fréquence de crawl ?

La fréquence de crawl, aussi appelée fréquence d’exploration ou taux de crawl, fait référence à la fréquence à laquelle un site internet est exploré par les robots des moteurs de recherche et principalement Googlebot.

Elle peut être liée à la popularité et à la visibilité globale du site Web. La seule façon d’obtenir vos pages et votre contenu dans les résultats de recherche organiques est de les indexer, et la seule façon de les indexer est de faire explorer votre site par Googlebot.

Un site avec une navigation appropriée aide à l’exploration en profondeur et à l’indexation de votre site.

La fréquence à laquelle vous mettez à jour votre site affecte la fréquence de son exploration. La popularité et l’autorité du domaine comptent également. Les sites qui génèrent beaucoup de trafic et créent un contenu vraiment attrayant seront explorés plus souvent que les autres.

Comment améliorer le taux de crawl ?

  • Avoir une structure de site optimum.
  • Mettre à jour son site.
  • Réaliser un maillage interne entre les pages.
  • Résoudre les erreurs de crawl.
  • Concentrer l’exploration des robots sur les pages importantes.
  • Réduire le temps de chargement du site.
  • Créer des sitemaps.
  • Bloquer l’accès aux pages indésirables via Robots.txt.
  • Optimiser le poids des images.

Une augmentation de la fréquence d’exploration ne mènera pas nécessairement à de meilleures positions dans les résultats de recherche. Google utilise des centaines de signaux pour classer les résultats, et bien que l’exploration soit nécessaire pour figurer dans les résultats, ce n’est pas un signal de classement.

Qu’est-ce que le budget de crawl de Google ?

Qu'est ce que le budget de crawl ?

Google doit explorer des milliards de sites web et une quantité incroyable de pages qui les composent. Ne pouvant pas tout explorer ni le faire en permanence, Google se doit par souci d’économie des ressources serveurs de fixer des critères et des priorités.

Google a donc besoin d’un moyen de hiérarchiser ses efforts. L’attribution d’un budget d’analyse à chaque site Web permet d’aider le moteur de recherche à effectuer cette tâche.

Le nombre de fois qu’un spider du moteur de recherche Google explore votre site Web dans un laps de temps donné correspond à ce qui est appelé «budget d’analyse» ou “crawl budget”. La fréquence varie légèrement d’un jour à l’autre, mais dans l’ensemble, il est relativement stable.

Le nombre de pages explorées par Google chaque jour est déterminé par la taille de votre site, la «santé» de votre site et sa popularité (nombre et qualité des liens réalisés vers votre site).

Le budget de crawl est partagé par tous les robots de Google dont Googlebot est le principal.

  • AdSense pour mobile : user-agent = Mediapartners-Google
  • AdSense : user-agent = Mediapartners-Google
  • AdsBot Web pour mobile Android : user-agent = AdsBot-Google-Mobile
  • AdsBot Web pour mobile : user-agent = AdsBot-Google-Mobile
  • AdsBot : user-agent = AdsBot-Google
  • Google Images : user-agent = Googlebot-Image
  • Google Actualités : user-agent = Googlebot-News
  • Google Vidéos : user-agent = Googlebot-Video
  • Ordinateur et mobile : user-agent = Googlebot

Le budget de crawl est attribué selon 2 facteurs :

  • La limite d’analyse : les robots d’exploration des moteurs de recherche sont conçus pour éviter de surcharger un serveur Web avec des demandes, ils ajustent donc la fréquence de crawl en fonction de ces limites.
  • La planification : les robots explorent un site de manière variable selon différents critères qui sont, sa popularité, le nombre de requêtes pour lesquelles il est positionné, la fraîcheur des mises à jour, les pages les plus visitées…
Qu'est ce que le budget de crawl ?
Exemple de statistiques d’exploration de Google sur un site. 229 pages explorées par jour en moyenne.

Pourquoi le Crawl Budget est important pour le référencement naturel ?

Un taux d’exploration optimum aidera vos sites Web à être indexés efficacement et rapidement. Si vous gaspillez ce budget, Google ne pourra pas analyser votre site Web de manière efficace. Il passera du temps sur des parties du site qui importent peu, des pages sans intérêt, au détriment des pages que vous souhaitez positionner.

Ce manque d’optimisation peut avoir pour conséquence que des parties importantes de votre site Web ne sont pas découvertes ou peu actualisées, limitant leur potentiel en terme de référencement naturel. Gaspiller le budget nuit à la performance de votre référencement.

Le crawl Budget peut devenir un enjeu très important pour les sites volumineux avec des milliers de pages. Bien que les sites plus petits aient moins à se soucier du budget de crawl, l’optimisation du crawl budget et l’analyse de logs peut toujours vous aider à obtenir de meilleurs résultats dans les pages de résultats de Google.

L’intérêt de l’analyse de logs en SEO

L’analyse des fichiers logs en SEO permet de comprendre comment les moteurs de recherche explorent un site web et son impact sur le référencement.

Ces informations sont d’une grande aide pour améliorer l’exploration de google et les performances en matière de SEO.

Vous pouvez analyser le comportement d’exploration et déterminer des mesures intéressantes :

  • Votre crawl budget est-il dépensé efficacement ?
  • Quelles erreurs d’accessibilité ont été rencontrées par les robots pendant l’exploration ?
  • Y a t’il des pages inconnues de Google ?
  • Le site a t’il des erreurs 404 ?
  • Le site a t’il des redirections en boucle ou des trapes à spiders ?
  • Quels sont les domaines où le crawl est déficient ?
  • Quelles sont les pages du site web les plus actives ?

Comment optimiser le budget de crawl pour GoogleBot ?

De nombreux leviers existent pour optimiser ce budget et concentrer les ressources des robots de Google vers les contenus les plus intéressants.

Facteurs ayant une incidence sur le budget d’analyse :

  • Dupliquer le contenu
  • Plans de Sitemap
  • Contenu de faible qualité
  • Pages d’erreur 404 et autre
  • Architecture du site
  • Vitesse du site
  • Chaînes de redirection
  • Robots.txt
  • Popularité
  • Liens internes

Contenus dupliqués

Quelle que soit la source du contenu, le contenu dupliqué peut avoir un impact négatif sur vos efforts de référencement et gaspiller le budget à un niveau important.

Le contenu dupliqué peut avoir diverses origines :

  • La duplication de contenu interne peut se produire lorsque différentes URL pointent vers une seule page.
  • Les URL de base ajoutées à des paramètres créent X pages dupliquées
  • En e-com principalement, les options de tri et de filtrage créent une duplication interne non intentionnelle

Google ne veut pas gaspiller des ressources en indexant plusieurs pages avec le même contenu.

Les sitemaps

Les sitemaps XML doivent contenir les URL les plus importantes que GoogleBots doit consulter le plus souvent. Google admet que le sitemap XML est utilisé en SEO dans le processus de création d’une liste d’URL à analyser pour indexation. Il faut garder le sitemap XML à jour, sans erreurs ni redirections.

les pages non indexables et les URL renvoyant des codes 3xx, 4XX et 5xx ne doivent pas être incluses dans votre sitemap XML.

Contenu de faible qualité

Plus une page est riche et contient de mots, plus elle est jugée de qualité et est explorée régulièrement. Les pages avec très peu de contenu ne sont pas intéressantes pour les moteurs de recherche. Gardez-les au minimum ou évitez-les complètement si possible.

Pages d’erreur 404 et autre

Si un site Web contient un nombre important d’erreurs 404 et 404 non corrigées,  il faut absolument les corriger pour optimiser votre SEO.

Vérifiez si l’URL de l’erreur 404 a une page équivalente ou similaire sur le site pouvant être utile aux utilisateurs. Si oui, redirigez l’URL cassée vers la nouvelle via une redirection.

Architecture du site

Les structures de site Web profondes, complexes, avec des milliers de pages, ne sont pas seulement désagréables pour les utilisateurs, mais sont également difficiles à explorer pour les robots.

Essayez toujours de garder les pages les plus importantes aussi proches que possible de la page d’accueil.

Une bonne méthode consiste à organiser le contenu horizontalement dans la structure du site plutôt que verticalement.

En réalisant un crawl de votre site avec les outils adaptés, vous pourrez obtenir une représentation visuelle de vos pages et liens, et identifier plus facilement les erreurs et points bloquants.

Vitesse du site

Un site Web à chargement plus rapide signifie que Google peut explorer plus d’URL dans le même temps donné. Les pages dont le chargement est long ont un impact négatif sur votre budget d’analyse. C’est un signe pour les robots de Google que votre site Web ne peut pas gérer la demande, et que votre limite d’analyse doit être ajustée à la baisse.

Les temps de chargement des pages et les délais d’attente élevés nuisent considérablement à l’expérience utilisateur de vos visiteurs, ce qui réduit également le taux de conversion.

Les redirections 301 et 302 en séries

Lorsque votre site Web comporte de longues chaînes de redirection, c’est-à-dire un grand nombre de redirections 301 et 302 consécutives, chaque URL que vous redirigez gaspille un peu de votre budget d’analyse.

Si votre site contient un nombre déraisonnable de redirections, les robots cesseront de suivre les instructions et l’URL de destination finale risque d’être ignorée. Chaque redirection constitue une perte d’une unité de votre budget d’analyse alloué. Éviter de multiplier les changements d’url et redirections pour vos pages.

Robots.txt

Le fichier Robots.txt est important en référencement, car il indique aux robots ce qu’il faut analyser et ce qu’il ne faut pas explorer. En indiquant aux bots ce qu’il est nécessaire de crawler et ce qui ne l’est pas, vous évitez de gaspiller la précieuse ressource de crawl.

Ajoutez au fichier robots.txt tous les répertoires et les URL que vous décidez de ne pas analyser. Ne pas bloquer les pages importantes par erreur.

Popularité

D’après de nombreux tests, il existe une forte corrélation entre le nombre de visites des robots de Google et le nombre de liens externes. La popularité et le netlinking seraient donc des facteurs importants pour augmenter le taux de crawl d’un site.

Il existe une relation assez forte entre l’autorité de page et le budget d’analyse.

Maillage des Liens internes

Les liens qui unissent les pages de votre site Web jouent un rôle important dans l’optimisation du budget d’analyse. Les pages qui ont peu de liens internes retiennent beaucoup moins l’attention des moteurs de recherche que les pages plus liées. Assurez-vous que vos pages les plus importantes reçoivent de nombreux liens internes. Les pages récemment explorées se classent généralement mieux dans les moteurs de recherche.

Une structure de site bien entretenue avec un maillage interne pertinent rend votre contenu facilement identifiable par les robots de recherche sans gaspiller le budget de crawl.

Les webmasters qui souhaitent suivre le processus d’indexation et mieux comprendre les interactions de Googlebot avec leur site peuvent recourir à l’utilisation d’un outil d’analyse de logs du serveur.

L’utilisation d’un outil d’analyse du crawl et des logs permet de mieux comprendre la notion de crawl budget, de corriger des erreurs et optimiser les éléments qui l’impactent.

Si vous souhaitez des conseils à ce sujet et augmenter votre trafic en ligne, notre agence SEO est à votre écoute.

A lire également

  • Quelle est l'importance de la vitesse de chargement en SEO ?
  • Importance et optimisation des urls en SEO
  • Quel est le rôle de la structure du site en SEO ?
  • Avez vous aimé cet article ?

    Cliquez sur les étoiles pour donner une note

    Note moyenne 5 / 5. Nombre de votes : 10

    Pas de votes pour le moment, soyez le premier à voter.

    Partager la publication "Crawl budget Google : définition et comment l’optimiser en SEO ? "
    Partager sur facebook
    Partager sur twitter
    Partager sur linkedin
    Partager sur email