Temps de lecture : 7 minutes

Quel est le processus d’indexation d’un site web sur Google ?

L’indexation désigne le processus par lequel les moteurs de recherche parcourent l’internet pour découvrir des pages web et stockent ces informations dans une base de données organisée appelée index.

Google découvre de nouvelles pages web en explorant le web, puis il les ajoute à son index. Pour ce faire, il utilise un robot d’indexation appelé Googlebot.

Pour mieux comprendre ce qu’est le référencement naturel, il est important pour les webmasters de savoir comment fonctionnent les moteurs et quel est le processus est mis en place entre le moment où un contenu est mis en ligne et le moment où il s’affichera dans les résultats de Google.

Voici quelques questions très souvent posées par nos clients SEO :

Qu’est-ce que l’indexation sur Google ?
Combien de temps pour indexer un site sur Google ?
Mon site est indexé sur Google, mais je n’ai pas de trafic ?
Qu’est ce que Googlebot ?

Table des matières

Comment fonctionnent les moteurs de recherche ?

Les moteurs de recherche fonctionnent en explorant des centaines de milliards de pages à l’aide de leurs propres robots d’exploration du Web. Ces robots Web sont communément appelés robots ou araignées. Un moteur de recherche navigue en ligne en téléchargeant des pages web et en suivant des liens pour en découvrir de nouvelles.

Ils ont trois fonctions principales :

Explorer : première étape du travail, parcourir Internet à la recherche de contenu, en parcourant le code et contenu pour chaque URL trouvée (pages des sites, images, vidéos, PDF…).
Indexation : le travail d’indexation consiste à stocker et organiser le contenu trouvé lors du processus d’analyse sur un serveur. Une fois qu’une page est dans l’index de Google, elle est disponible pour être affichée sur des requêtes pertinentes formulées par l’internaute.
Positionnement : Dernière étape, présenter dans les résultats de recherche les contenus qui répondent le mieux à la requête d’un internaute. Ils sont classés par ordre de pertinence selon une série de règles et algorithmes spécifiques.

Quel est l’objectif de Google ?

L’objectif de Google est de fournir à ses utilisateurs les meilleurs rendus possible en termes de pertinence et de rapidité. Des centaines de milliards de pages sont stockées sur ses serveurs. Grâce à ses algorithmes actualisés plusieurs centaines de fois par an, Google tente de proposer les résultats les plus pertinents en fonction des intentions de recherche des internautes.

Afin d’en proposer des optimums, il mettra de côté les contenus dupliqués, les contenus jugés sans intérêt, les sites qui abusent de techniques pour manipuler les résultats de recherche (spam).

Quel est le fonctionnement de Google en particulier ?

Exploration du web par les crawlers et GoogleBot

Les araignées ou crawlers de Google, également appelées «Googlebots», parcourent tout le Web, balayant chaque page Web (des milliards de documents) et explorant ses hyperliens afin de stocker ces données dans un ou plusieurs index.

Ce processus se poursuit jusqu’à ce que l’araignée (spider) du moteur de recherche ait trouvé, analysé et indexé pratiquement le maximum des contenus visibles du web.

Le meilleur moyen pour Google de trouver et de revenir sur votre site consiste à détecter et à explorer les liens d’autres sites qui font des backlinks vers le vôtre.

Les moteurs voient et analysent chaque page du Web de manière indépendante. Un site Web est simplement une collection de pages Web liées entre elles, à l’aide de liens hypertextes .

La base d’internet et de son réseau de site est basée sur les liens et leur suivi.

L’indexation des contenus dans l’index de Google et ses data center

Une fois qu’une page Web a été explorée, Google analyse et stocke leur code dans d’énormes centres de données, les data center (index de Google), garantissant ainsi que les données peuvent être présentées rapidement aux internautes.

Google attribue un identifiant unique à chaque page Web et indexe leur contenu pour identifier précisément les éléments qui la composent.

Cette énorme base de données contient tous les contenus que Google à découvert et qu’il juge assez pertinents à proposer aux internautes..

Google gère un index supplémentaire, utilisé pour stocker les sites suspectés de spam, les sites avec un contenu en double et ceux qui sont difficiles à analyser (problèmes de taille ou erreurs de structure).

Classement dans les résultats Google

Les algorithmes ont pour objectif de présenter un ensemble pertinent de résultats de recherche de haute qualité, qui répondent à la requête ou question de l’utilisateur, et ce le plus rapidement possible.

Lorsqu’une requête est entrée dans un moteur de recherche par un utilisateur, toutes les pages jugées pertinentes sont identifiées à partir de l’index et un algorithme est utilisé pour hiérarchiser celles qui sont pertinentes en un ensemble de résultats classé dans un ordre défini.

Les algorithmes utilisés pour classer les résultats les plus pertinents sont différents pour chaque moteur. Une page qui se classe à un place précise pour une requête de recherche sur Google peut ne pas se classer de la même manière pour la même requête sur Bing .

Afin de pouvoir attribuer la pertinence et l’importance, ils utilisent des algorithmes complexes conçus pour prendre en compte des centaines de signaux permettant de déterminer la pertinence et la popularité d’une page Web.

Pertinence : Identifier le contenu d’une page correspond à l’intention de recherche d’internaute (l’intention est ce que les chercheurs cherchent à accomplir avec cette recherche, ce qui n’est pas une mince affaire pour les moteurs – ou les SEO – à comprendre).
Popularité : la popularité et l’autorité d’un domaine sont déterminées par de nombreux facteurs, dont la qualité et quantité de liens entrants existants.

En plus de la requête, les moteurs utilisent d’autres données pertinentes pour renvoyer des résultats :

Lieu : Certaines requêtes dépendent du lieu et de la géolocalisation.
Langue détectée : Ils renvoient les contenus dans la langue de l’utilisateur.
Historique de recherche précédent : Ils renvoient des résultats différents pour une requête en fonction de l’historique de navigation de l’internaute.
Périphérique : Un ensemble de résultats différents peuvent être renvoyés en fonction du périphérique (pc, mobile, tablette) à partir duquel la requête a été effectuée.

Afin de transmettre les résultats à l’utilisateur final du moteur, ceux-ci doivent effectuer certaines étapes critiques :

Interprétation de l’intention de la requête de l’utilisateur.
Identification des pages dans l’index associé à la requête.
Affichage du résultat et classement par ordre de pertinence et de popularité

Le Crawl Budget

Google doit explorer des milliards de pages nouvelles et mises à jour. Afin de ne pas utiliser des ressources inutilement, il attribue à chaque site un budget de crawl qui déterminera le nombre de pages qu’il explorera chaque jour. En optimisant la priorité et son budget de crawl et en évitant à Googlebot d’explorer des pages inutiles, les ressources du moteur sont centralisées sur le contenu avec le plus d’importance d’un site web.

L’analyse de logs orientée pour le SEO permet de mieux comprendre le comportement et les erreurs rencontrées par le robot GoogleBot lorsqu’il explore le site sur le serveur.

Pourquoi une page peut ne pas être indexée par Google ?

Il existe un certain nombre de circonstances dans lesquelles une URL ou des parties du site ne seront pas indexées :

Le robot.txt indique au moteur ce qui doit ou non être crawlé par ses robots d’exploration.
Des balises noindex demandent à ne pas indexer la page.
Une URL canonique est déjà définie pour une autre page.
Le contenu en ligne n’est pas considéré de qualité par les robots, duplicate content et plagiat, ou trop peu développé.
La page renvoyait un message d’erreur serveur au moment du passage du robot (erreurs 404).
La page est orpheline et ne peut pas être trouvée.
Le serveur est inaccessible.

Comment faire pour qu’un site web soit indexé par Google ?

Google peut indexer une nouvelle page de différente manière, en fonction de la méthode utilisée pour la découvrir.

Il existe de nombreuses façons de faire connaître une nouvelle page à Google :

Google Bot la découvre sur votre site via les liens internes.
La page est envoyée via un sitemap.
Une demande d’indexation est faite via l’outil pour webmasters Search Console.
Recevoir un lien depuis un autre site.

Combien de temps faut-il pour qu’un site soit indexé sur Google ?

Les délais d’indexation peuvent être très variables en fonction de la popularité de votre site, de la méthode de soumission de la nouvelle page au moteur de recherche, de sa position sur votre site (nombre de cliques depuis l’index), de la priorité de Google.

Le délai peut aller de 30 minutes à plusieurs jours. Pour autant, il ne faut pas confondre délais d’indexation avec le délai de positionnement qui lui est beaucoup plus long, dépendant de vos actions de référencement et non garanti.

L’effet sandbox de Google, mythe ou réalité ?

Jamais confirmé par Google, il existe une légende sur l’effet Google Sandbox qui serait un filtre qui est censé agir sur les nouveaux sites web. Si un site web est placé dans la Sandbox de Google, le classement du site commence à en être affecté.

Les mots clés et les expressions de mots clés les plus importants commenceront à subir une baisse de leur classement. Que votre site comporte de nombreux liens entrants, qu’il soit le mieux classé sur Google ou qu’il ait un excellent contenu, il est possible qu’il soit affecté par l’effet Sandbox.

L’objectif principal de l’effet sandbox serait d’empêcher l’apparition de sites de spam ou la répétition du processus.

Comment vérifier si un site internet est indexé dans Google ?

Allez sur Google, puis recherchez via l’outil de recherche « site:votresite.com"

Le nombre affiché (ici 86) indique approximativement le nombre de pages du site indexées par Google.

Si vous souhaitez vérifier le statut d’une URL en particulier, utilisez cette recherche sur Google « site:votresite.com/nomdelapage"

Aucun résultat n’apparaîtra si la page n’est pas indexée.

Comment supprimer une page de l’index de Google ?

Une fonction de la Search Console permet de demander la suppression d’une page obsolète.

Il suffit de se connecter sur cette page et d’entrer l’URL supprimée du serveur à désindexer du moteur.

L’opération prendre en général entre 24 et 48h.

Si vous souhaitez un audit de votre site et des conseils afin d’améliorer le crawl, n’hésitez pas à nous contacter.

A lire également

Quels sont les différents algorithmes de Google ?

Qu'est ce que la SERP Google en SEO ?

Qu'est ce qu'une pénalité Google ?

Avez vous aimé cet article ?

Cliquez sur les étoiles pour donner une note

Note moyenne 4.8 / 5. Nombre de votes : 12

Pas de votes pour le moment, soyez le premier à voter.