Parlons de vos projets, appelez nous

Analyse de logs en référencement : comprendre les robots et GoogleBot

Net Offensive

Temps de lecture : 9 minutes
5
(3)

Utilisation de l’analyse de log pour optimiser votre stratégie de référencement naturel

Qu'est ce que l'analyse de log en SEO ?

L’analyse de log permet de bien comprendre le comportement du Bot de Google sur votre site afin de mettre en place les stratégies les plus efficaces pour améliorer les performances du référencement et faciliter le travail des outils d’exploration de Google.

La tâche principale des Google Bots lorsqu’ils accèdent à un site Web consiste à analyser un nombre spécifique de pages définies par le budget d’exploration du site (Crawl Budget). Après analyse, Google enregistre les pages qu’il a explorées en ligne dans sa base de données.

L’analyse des logs serveur a évolué pour devenir un élément fondamental des audits techniques de référencement. L’analyse de ces informations peut donner des indicateurs exploitables en termes de référencement qu’il n’est pas possible d’identifier autrement.

L’analyse vous permet d’optimiser les performances d’indexation de votre site par les bots, de mieux classer votre site dans les résultats Google, d’obtenir plus de trafic et d’augmenter vos ventes.

Qu’est-ce que les logs d’un serveur ?

Chaque demande de connexion et de contenu adressée à votre serveur web d’hébergement est enregistrée dans un fichier journal, appelé fichier de logs. Ces fichiers existent généralement pour l’audit technique et le dépannage de sites internet, mais peuvent également s’avérer extrêmement précieux pour vos audits de référencement et optimiser certains facteurs SEO.

Afin de réaliser des analyses à vocation SEO, vous avez besoin des logs d’accès bruts du serveur sur lequel est hébergé votre domaine, sans filtrage ni modification. Idéalement, vous aurez besoin d’une grande quantité de données pour que l’analyse puisse se faire sur un volume de données suffisantes. En fonction de votre volume de trafic et de la fréquence de crawl de Google, il faudra exploiter les données sur des durées plus ou moins importantes.

Grâce à l’analyse de ces données de connexion, vous pourrez examiner et comprendre comment Google explore votre site. Tout ce que vous avez à faire est d’exporter ces données et de filtrer les connexions de Googlebot (par agent d’utilisateur et plage d’IP).

Les données reçues sont stockées de manière anonyme et incluent des informations telles que l’heure et la date à laquelle la connexion a été réalisée, l’adresse IP du visiteur ou du robot, l’URL du contenu demandé et l’agent utilisateur du navigateur.

  • IP
  • Horodatage (date et heure)
  • Méthode (GET / POST)
  • URL de requête
  • Code de statut HTTP
  • Agent utilisateur

Qu’est-ce que l’analyse de log en SEO ?

L’analyse des fichiers logs en référencement consiste à télécharger vos fichiers à partir de votre serveur et à les ouvrir via un outil d’analyse dédié au SEO.

Il vous suffit de filtrer par agents et adresses IP du client pour accéder aux détails de l’analyse par moteurs de recherche.

La search console et les outils d’exploration tiers ne donnent pas une image complète de la manière dont Googlebot et les autres moteurs de recherche interagissent avec un site Web. Seul l’analyse les fichiers logs d’accès à votre site permet de connaître de manière précise le comportement des bots explorateurs tels que Googlebot et d’analyser l’impact sur le référencement naturel de votre site internet.

Pourquoi sont-ils importants en SEO ?

Analyser le comportement de Google grâce aux logs

L’analyse de ces fichiers est une spécialité qui demande des connaissances techniques poussées et d’utiliser des outils qui peuvent parfois se révéler onéreux. Cependant ces analyses techniques aident énormément les spécialistes du SEO à solutionner d’importants problèmes techniques en matière de référencement naturel. Problèmes qui généralement ne peuvent pas être identifiés via d’autres méthodes.

L’analyse des fichiers journaux nous fournit une quantité considérable d’informations utiles :

  • Définir ce qui doit être exploré en priorité.
  • Définir ce qui ne doit pas être exploré.
  • Déterminer les problèmes rencontrés par les moteurs de recherche lors de l’exploration.
  • Découvrir quelles parties du site et pages sont appréciées des moteurs de recherche.
  • Optimiser le ratio du budget d’analyse journalier.
  • Aider à améliorer les erreurs d’accessibilité telles que les 404 et 500.
  • Identifier les pages qui ne sont pas souvent explorées.

Quels problèmes peut-on résoudre en analysant les logs ?

Problèmes à résoudre grâce à l'analyse de logs

Quelle que soit la méthode choisie pour accéder à vos données de logs et les comprendre, leur analyse est déterminante pour découvrir d’importants problèmes techniques ayant un impact sur référencement naturel d’un site internet. Voici les principaux problèmes SEO qui peuvent être identifiés et résolus en analysant avec les outils adaptés.

Les erreurs de code de réponse et pages inaccessibles

Votre site internet peut contenir des pages qui renvoient aux moteurs de recherche des codes d’erreurs de différents types. Les pages qui ne répondent pas ou qui renvoient des 301, 400 ou 500 correspondantes doivent être analysées en priorité et corrigées. Il est important de réparer les contenus manquants, de rediriger les pages obsolètes vers les bonnes afin que GoogleBot puisse explorer le site et découvrir les contenus sans messages d’erreurs.

Il est recommandait de rechercher ceux qui ont des codes d’état 3xx, 4xx et 5xx, pour voir les pages redirigées ou les pages d’erreurs que vous envoyez aux robots d’exploration.

Réduire les problèmes et optimiser le crawl des moteurs de recherche permettra à votre stratégie de référencement de prendre effet de manière plus efficace.

Les contenus dupliqués ou non pertinents

L’outil d’analyse des logs vous permettra d’identifier des contenus sans importance pour le référencement qui sont tout de même explorés par les moteurs de recherche, mais également des contenus en double sans intérêt qui peuvent pénaliser votre référencement naturel

En identifiant les pages et les ressources qui ne sont pas censées être indexées, vous serez en mesure de prendre les mesures adaptées d’un point de vue technique.

Le fait d’avoir de nombreuses URL à faible valeur ajoutée indexées par Google peut avoir un impact négatif sur l’analyse et l’indexation d’un site. Le gaspillage de ressources sur ces pages sans valeur ajoutée réduira l’activité d’analyse des pages qui ont réellement une valeur, retardant parfois considérablement la découverte des contenus à valoriser dans la stratégie de référencement.

Les URL à faible valeur ajoutée peuvent appartenir à ces catégories :

  • Navigation à facettes et identifiants de session.
  • Contenus dupliqués.
  • Pages d’erreurs.
  • Pages piratées.
  • Contenu de qualité médiocre et spam.

Les priorités d’exploration des robots

Il est important que les robots de recherche accèdent à votre site, mais aussi qu’ils explorent les pages les plus importantes pour votre référencement et vos conversions. Quelles pages explorent-ils ? Quel est le statut HTTP de ces pages ? Les robots de recherche explorent-ils les mêmes pages ou des pages différentes ? Trouvent-ils rapidement les nouveaux contenus ?

Si vos pages les plus importantes ne figurent pas parmi les premières pages explorées, vous pouvez décider de mettre en place des actions SEO appropriées pour stimuler les visites de ces pages.

Google ignore peut-être des pages ou des parties cruciales de votre site internet. Les indicateurs révéleront les URL et les répertoires retenant le plus et le moins d’attention de la part des moteurs de recherche.

Connaître la date du dernier crawl

L’analyse des logs permet de savoir à quelle date est passé le bot du moteur de recherche sur vos pages. En optimisant vos sites de manière adéquate, vous pourrez influer sur la fréquence de crawl des pages les moins souvent visitées.

L’optimisation du budget d’exploration (Crawl Budget)

Google attribue un budget d’analyse à chaque site Web en fonction de nombreux facteurs. Si votre ration de budget d’analyse est de x pages par jour, vous souhaitez que les x pages explorées par Google soient des pages pertinentes et utiles dans votre stratégie de référencement naturel.

Si vous atteignez votre limite d’analyse de site trop vite, Google mettra plus de temps à trouver des contenus que vous souhaitez voir explorer plus souvent aux profits de contenus non prioritaires.

Google ne souhaite pas perdre son temps et ses ressources à explorer des sites web de mauvaise qualité.

La vérification de la prise en compte des redirections

Les redirections temporaires 302 ne transmettent pas la popularité de l’ancienne URL vers la nouvelle. Ils devraient généralement être changés en redirections permanentes 301. Les enchaînements de redirections depuis des contenus dont les URL ont changé plusieurs fois de suite peuvent ne plus être suivis à partir d’un certain nombre.

Elles gaspillent du budget de crawl inutilement. L’analyse permet donc de vérifier la bonne organisation de vos redirections permanentes.

Optimiser le maillage interne

Les liens internes qui lient vos pages sont dans un premier temps là pour faciliter la navigation de vos visiteurs dans les diverses rubriques du site et également pour créer une continuité de navigation du sujet en sujets ou de produits en produits.

Le maillage interne est également déterminant pour permettre aux moteurs de recherche, et principalement à Googlebot de découvrir l’ensemble des pages d’un site et augmentant le ratio des visites.

En analysant le chemin emprunté par les robots pour explorer votre site, vous serez en mesure de faire évoluer de crawl vers certaines pages ou rubriques de votre site, dans le but de favoriser les pages et parties de votre site internet jugées comme les plus importantes pour votre référencement, ou celles trop délaissées par les spiders de crawl.

Les outils de crawl et d’analyses de logs

Il existe actuellement de nombreux outils d’audit de logs en ligne. Oncrawl et Botify sont les plus aboutis à l’heure actuelle.

Visiter le site de Oncrawl

Visiter le site de Botify

A lire également :

Avez vous aimé cet article ?

Cliquez sur les étoiles pour donner une note

Note moyenne 5 / 5. Nombre de votes : 3