Temps de lecture : 8 minutes

Définition, fonctionnement et optimisation du Budget de Crawl

Le budget d’exploration (crawl budget) est le nombre de pages que Google va explorer sur votre site un jour donné ou sur une période donnée. Ce nombre varie légèrement d’un jour à l’autre, mais dans l’ensemble, il est relativement stable.

Google ne dispose pas d’un temps et de ressources illimités pour explorer chaque page du web en permanence, toutes ne seront pas explorées. Optimiser le budget d’exploration peut être la clé de la croissance du site de votre entreprise.

Lorsque l’on parle de référencement naturel, le premier réflexe est de parler d’optimisation des contenus, de la sémantique, du netlinking. Le plus souvent, la notion de fonctionnement du budget de crawl est négligée, comme la structure du site et de son optimisation SEO.

Beaucoup de webmasters de sites internet ne réalisent pas qu’il s’agit d’un facteur d’importance.

Lorsque vous ajoutez de nouvelles pages et mettez à jour des existantes, vous souhaitez que les moteurs de recherche les détectent dès que possible. Plus vite Google fera l’indexation ou actualisera, plus vite vous pourrez en tirer parti.

Dans cet article nous allons voir ce qu’est le budget de crawl et vous donner les éléments et conseils clefs. Pourquoi est-il important de l’optimiser ? Quels sont les facteurs qui peuvent l’influencer ?

Table des matières

Comment fonctionne l’exploration d’un site pour les robots ?

Les moteurs de recherche comme Google utilisent des robots, appelés «spiders», pour explorer le Web, collecter des informations à leur sujet et les ajouter à leur index.

Ces « araignées » détectent également les liens sur les pages visitées et tentent également d’explorer ces nouvelles urls. C’est en suivant les liens, que le robot de Google appelé « Googlebot » parcourt le web et découvre de nouvelles pages, de nouveaux sites…

Toutes ne sont pas analysées le même jour, certaines sont ajoutées à une liste de tâches à réaliser plus tard.

Qu’est-ce que la fréquence de crawl ?

La fréquence de crawl, aussi appelée fréquence d’exploration, fait référence à la fréquence à laquelle un site internet est exploré par les robots et principalement Googlebot.

Elle peut être liée à la popularité et à la visibilité globale du site. La seule façon d’avoir votre contenu référencé dans les résultats organiques est de les faire indexer, et la seule façon de les indexer est de faire explorer votre site par Googlebot.

Un site avec une navigation appropriée aide à l’exploration en profondeur et à l’indexation de votre site.

La fréquence à laquelle vous mettez à jour votre site affecte la fréquence de son exploration. La popularité et l’autorité du domaine comptent également. Les sites qui génèrent beaucoup de trafic et créent un contenu vraiment attrayant seront explorés plus souvent que les autres.

Comment améliorer le taux de crawl ?

Avoir une structure de site optimum.
Mettre à jour son site.
Réaliser un maillage interne.
Résoudre les erreurs.
Concentrer l’exploration sur les urls importantes.
Réduire le temps de chargement du site.
Créer des sitemaps.
Bloquer l’accès aux pages indésirables.
Optimiser le poids des images.

Une augmentation de la fréquence d’exploration ne mènera pas nécessairement à de meilleures positions dans les résultats. Google utilise des centaines de signaux pour classer les résultats, et bien que l’exploration soit nécessaire pour figurer dans les résultats, ce n’est pas un signal de classement.

Qu’est-ce que le budget de crawl ?

Google doit explorer des milliards de sites et une quantité incroyable d’urls qui les composent. Ne pouvant pas tout explorer ni le faire en permanence, il se doit par souci d’économie des ressources serveurs de fixer des critères et des priorités.

Il a donc besoin d’un moyen de hiérarchiser ses efforts. L’attribution d’un budget à chaque site permet d’aider le moteur à effectuer cette tâche.

Le nombre de fois qu’un spider du moteur explore votre site dans un laps de temps donné correspond à ce qui est appelé «budget d’analyse». La fréquence varie légèrement d’un jour à l’autre, mais dans l’ensemble, il est relativement stable.

Le nombre de pages explorées chaque jour est déterminé par la taille de votre site, la «santé» de votre site et sa popularité (nombre et qualité des liens réalisés vers votre site).

IL est partagé par tous les robots de Google dont Googlebot est le principal.

AdSense pour mobile : user-agent = Mediapartners-Google
AdSense : user-agent = Mediapartners-Google
AdsBot Web pour mobile Android : user-agent = AdsBot-Google-Mobile
AdsBot Web pour mobile : user-agent = AdsBot-Google-Mobile
AdsBot : user-agent = AdsBot-Google
Google Images : user-agent = Googlebot-Image
Google Actualités : user-agent = Googlebot-News
Google Vidéos : user-agent = Googlebot-Video
Ordinateur et mobile : user-agent = Googlebot

Le budget de crawl est attribué selon 2 facteurs :

La limite : les robots d’exploration des moteurs sont conçus pour éviter de surcharger un serveur avec des demandes, ils ajustent donc la fréquence en fonction de ces limites.
La planification : ils explorent un site de manière variable selon différents critères qui sont, sa popularité, le nombre de requêtes pour lesquelles il est positionné, la fraîcheur des mises à jour, les pages les plus visitées…

Qu'est ce que le budget de crawl ? — Exemple de statistiques d’exploration de la search console sur un site. 229 pages explorées par jour en moyenne.

Pourquoi le Crawl Budget est important ?

Un taux d’exploration optimum aidera vos sites à être indexés efficacement et rapidement. Si vous gaspillez ce budget, Google ne pourra pas analyser votre site de manière efficace. Il passera du temps sur des parties du site qui importent peu, des pages sans intérêt, au détriment des celles que vous souhaitez positionner.

Ce manque d’optimisation peut avoir pour conséquence que des parties importantes de votre site ne sont pas découvertes ou peu actualisées, limitant leur potentiel en terme de référencement naturel. Gaspiller le budget nuit à sa performance.

Le crawl Budget peut devenir un enjeu très important pour les sites volumineux avec des milliers de pages. Bien que les sites plus petits aient moins à s’en soucier, son optimisation et l’analyse de logs peut toujours vous aider à obtenir de meilleurs résultats.

L’intérêt de l’audit de logs en SEO

L’analyse des fichiers logs en SEO permet de comprendre comment les moteurs explorent un site et son impact sur le référencement.

Ces informations sont d’une grande aide pour améliorer l’exploration et les performances en matière de SEO.

Vous pouvez auditer le comportement d’exploration et déterminer des mesures intéressantes :

Votre crawl budget est-il dépensé efficacement ?
Quelles erreurs d’accessibilité ont été rencontrées ?
Y a t’il des pages inconnues ?
Le site a t’il des erreurs 404 ?
Le site a t’il des trapes à spiders ?
Quels sont les domaines où le crawl est déficient ?
Quelles sont les pages du site les plus actives ?

Comment l’optimiser pour GoogleBot ?

De nombreux leviers existent pour optimiser ce budget et concentrer les ressources vers les contenus les plus intéressants.

Variables ayant une incidence sur le budget d’analyse :

Dupliquer le contenu
Plans de Sitemap
Contenu de faible qualité
Erreur 404 et autre
Architecture du site
Vitesse du site
Chaînes de redirection
Robots.txt
Popularité
Liens internes

Contenus dupliqués

Quelle que soit la source du contenu, le contenu dupliqué peut avoir un impact négatif sur vos efforts de référencement et gaspiller le budget à un niveau important.

Le contenu dupliqué peut avoir diverses origines :

La duplication de contenu interne peut se produire lorsque différentes URL pointent vers une seule page.
Les URL de base ajoutées à des paramètres créent X pages dupliquées
En e-com principalement, les options de tri et de filtrage créent une duplication interne non intentionnelle

Il ne veut pas gaspiller des ressources en indexant plusieurs fois le même contenu.

Les sitemaps

Les sitemaps XML doivent contenir les URL les plus importantes que GoogleBots doit consulter le plus souvent. Google admet que le sitemap XML est utilisé en SEO dans le processus de création d’une liste d’URL à analyser pour indexation. Il faut garder le sitemap XML à jour, sans erreurs ni redirections.

les pages non indexables et les URL renvoyant des codes 3xx, 4XX et 5xx ne doivent pas être incluses dans votre sitemap XML.

Contenu de faible qualité

Plus une page est riche et contient de mots, plus elle est jugée de qualité et est explorée régulièrement. Celles avec très peu de contenu ne sont pas intéressantes pour les moteurs. Gardez-les au minimum ou évitez-les complètement si possible.

Errreur 404

Si un site contient un nombre important d’erreurs 404 et 404 non corrigées, il faut absolument les corriger pour optimiser votre SEO.

Vérifiez si l’URL de l’erreur 404 a une page équivalente ou similaire sur le site pouvant être utile aux utilisateurs. Si oui, redirigez l’URL cassée vers la nouvelle via une redirection.

Architecture du site

Les structures de site profondes, complexes, ne sont pas seulement désagréables pour les utilisateurs, mais sont également difficiles à explorer.

Essayez toujours de garder les pages les plus importantes aussi proches que possible de la page d’accueil.

Une bonne méthode consiste à organiser le contenu horizontalement dans la structure du site plutôt que verticalement.

En réalisant un crawl de votre site avec les outils adaptés, vous pourrez obtenir une représentation visuelle de vos contenus et liens, et identifier plus facilement les erreurs et points bloquants.

Vitesse du site

Un site à chargement plus rapide signifie que Google peut explorer plus d’URL dans le même temps donné. Les pages dont le chargement est long ont un impact négatif sur votre budget d’analyse. C’est un signe pour les robots que votre site ne peut pas gérer la demande, et que votre limite d’analyse doit être ajustée à la baisse.

Les temps de chargement et les délais d’attente élevés nuisent considérablement à l’expérience utilisateur de vos visiteurs, ce qui réduit également le taux de conversion.

Les redirections 301 et 302 en séries

Lorsque votre site comporte de longues chaînes de redirection, c’est-à-dire un grand nombre de redirections 301 et 302 consécutives, chaque URL que vous redirigez gaspille un peu de votre budget d’analyse.

Si votre site en contient un nombre déraisonnable, les robots cesseront de suivre les instructions et l’URL de destination finale risque d’être ignorée. Chaque redirection constitue une perte d’une unité de votre budget d’analyse alloué. Éviter de multiplier les changements d’url.

Robots.txt

Le fichier Robots.txt est important en référencement, car il indique ce qu’il faut analyser et ce qu’il ne faut pas explorer. En indiquant aux bots ce qu’il est nécessaire de crawler et ce qui ne l’est pas, vous évitez de gaspiller la précieuse ressource.

Ajoutez au fichier robots.txt tous les répertoires et les URL que vous décidez de ne pas montrer. Ne pas bloquer les pages importantes par erreur.

Popularité

D’après de nombreux tests, il existe une forte corrélation entre le nombre de visites des robots et le nombre de liens externes. La popularité et le netlinking seraient donc des facteurs importants pour augmenter le taux de crawl d’un site.

Il existe une relation assez forte entre l’autorité de page et le budget.

Maillage des Liens internes

Les liens qui unissent les pages de votre site jouent un rôle important dans l’optimisation du budget. Les pages qui ont peu de liens internes retiennent beaucoup moins l’attention des moteurs de recherche que celles les plus liées.

Assurez-vous que vos pages les plus importantes reçoivent de nombreux liens internes. Les pages récemment explorées se classent généralement.

Une structure de site bien entretenue avec un maillage interne pertinent rend votre contenu facilement identifiable par les robots sans gaspiller le budget de crawl.

Les webmasters qui souhaitent suivre le processus d’indexation et mieux comprendre les interactions de Googlebot avec leur site peuvent recourir à l’utilisation d’un outil d’audit de logs du serveur.

L’utilisation d’un tel outil permet de mieux comprendre cette notion, de corriger des erreurs et optimiser les éléments qui l’impactent.

Si vous souhaitez des conseils à ce sujet et augmenter votre trafic en ligne, notre agence SEO est à votre écoute.

[r4w_sc_sister_pages_link]

Avez vous aimé cet article ?

Cliquez sur les étoiles pour donner une note

Note moyenne 5 / 5. Nombre de votes : 10

Pas de votes pour le moment, soyez le premier à voter.