Etre premier sur Google et y rester Nous créons une stratégie SEO gagnante de A à Z. Je veux améliorer ma visibilité
Temps de lecture : 8 minutes
5
(10)

Duplicate content, plagiat et impact sur le référencement

Tout savoir sur le contenu dupliqué en référencement naturel

Les problématiques de contenus dupliqués sont courantes en référencement naturel et peuvent avoir des conséquences négatives sur vos efforts en matière de SEO et de positionnement dans les résultats de Google et de trafic en ligne.

Le duplicate content ferait partie des 5 problèmes les plus courants en SEO. De ce constat, il semble important d’aborder ce sujet de savoir quelles sont les causes qui peuvent amener Google à considérer qu’un contenu est dupliqué, aboutissant à des conséquences nuisibles sur votre travail d’acquisition de visibilité et de trafic.

La qualité du contenu en SEO passe d’abord par des textes uniques, sur le site et en dehors.

Qu’est-ce que le duplicate content en référencement ?

Le duplicate content fait référence à un texte très similaire, ou exactement identique. Il qui apparaît sur Internet à plusieurs endroits. Ces emplacements sont définis par des adresses de site Web uniques ( URL ). Ainsi, si le même contenu apparaît à plusieurs adresses Web, vous avez un contenu en double.

Le duplicate content peut se trouver sur des sites différents, mais aussi au sein d’un même site. On estime que 25 à 30% du Web est composé de contenus en double. Il ajoute peu ou pas de valeur à vos visiteurs. Par conséquent, les urls avec peu ou pas de corps sont également considérées comme en double.

Il présente plusieurs désavantages :

  • Il n’apporte pas ou peu de valeur ajoutée au moteur de recherche, ni à vos visiteurs.
  • Ils peuvent nuire à votre travail de référencement naturel en ligne.
  • Il peut avoir de nombreuses origines intentionnelles ou non.

Voici la définition de Google au sujet du duplicate content : Dupliquer le contenu fait généralement référence à des blocs substantiels dans ou entre des domaines qui correspondent complètement à un autre contenu ou qui sont sensiblement similaires.

Pourquoi Google lutte-t-il contre eux ?

Le contenu dupliqué et sa gestion par Google

Le premier but premier de l’entreprise de Mountain View est de proposer à ses utilisateurs une expérience optimale en termes de recherches sur son moteur. Le second est d’économiser des ressources en se focalisant sur les textes légitimes et uniques.

À partir de ces deux constats, il est important pour le moteur de recherche de lutter contre ceux qui n’apportent pas de valeur particulière. Google valorise et récompense donc l’original. C’est un excellent moyen d’augmenter le coût du référencement tout en créant une meilleure expérience utilisateur.

Lorsque Googlebot visite votre site, il enregistre le contenu dans ses bases de données. Il est comparé aux autres de la base de données. Si des correspondances substantielles sont trouvées, Google peut décider que votre contenu est dupliqué.

Il décidera quelle version est la plus fiable et la plus digne d’être présentée aux internautes.

La duplication est un réel problème lorsque vous avez plusieurs versions d’un même texte sur votre site. Dans ces cas il peut avoir du mal à choisir quelle page afficher.

Quels sont les problèmes posés en SEO ?

Les principaux problèmes de duplicate content

La duplication peut avoir des répercussions importantes sur votre référencement selon qu’il s’agit d’interne ou en externe.

Le duplicate content interne et externe pose ces soucis :

  • Budget de crawl non optimisé : Google limite ses visites sur votre site pour optimiser ses ressources machines. Des contenus dupliqués en trop grand nombre peuvent gaspiller ce crawl budget et empêcher de centraliser les ressources d’indexation sur  le  uniques et importants.
  • Pénalités de type Panda : les urls ayant des contenus trop peu développés peuvent être considérées comme dupliquées ou trop similaires et aboutir à des pénalités. Il est important d’éviter de générer des pages de manière automatique avec des textes pauvres sans valeur ajoutée
  • Dilution du netlinking : en proposant des URL différentes pour un même contenu, vous augmentez les chances de recevoir des liens externes sur plusieurs pages plutôt que de centraliser les backlinks sur une URL unique. Google aura du mal à consolider les métriques des liens, en particulier lorsque d’autres sites génèrent des liens vers plusieurs versions.
  • Manque de maîtrise sur le positionnement : lorsque Google détecte des urls en double (titre, descriptions, texte…), il favorise en général une page et peut afficher une autre que celle que vous souhaitez mettre en avant.
  • Déterminer de qui vient l’original : lorsque plusieurs versions sont disponibles, il est difficile de déterminer quelle version afficher dans leurs résultats de recherche et de savoir qui en est l’auteur original. Si il est dupliqué sur un site ayant une plus grande autorité que le site copié, la paternité peut être attribuée au site du copieur faisant plus grande autorité.

Existe-t-il une pénalité de contenu en double ?

La duplication peut nuire à votre performance en matière de référencement , mais cela ne vous occasionnera aucune pénalité tant que vous n’avez pas intentionnellement copié le site Web de quelqu’un d’autre . Si vous êtes un propriétaire de site honnête et que vous rencontrez des soucis techniques sans essayer pas de tromper Google, vous n’avez pas à craindre de pénalité de sa part.

Si vous avez copié volontairement de grandes quantités de contenu provenant d’autres sites, vous vous retrouvez dans une situation délicate.

«Le contenu dupliqué sur un site ne constitue pas un motif d’action sur ce site, sauf s’il apparaît que l’intention est d’être trompeuse et de manipuler les résultats des moteurs de recherche . » Google.

Quelles sont les causes principales du duplicate content ?

Les cause du contenu dupliqué

Ces problématiques peuvent avoir de nombreuses origines qui sont plus ou moins faciles à identifier selon que l’on soit spécialiste du référencement naturel ou non. Nous allons lister ici les principales origines qui amènent des contenus à être dupliqués.

Vol et copie

Google n’est pas toujours en mesure de faire la distinction entre l’original et la copie. Il est donc important de surveiller les éventuelles copies de textes dont vous pourriez être victime. Il existe un certain nombre d’outils qui permettent de mettre en place une veille à ce niveau. L’outil Copyscape est le plus connu.

Duplication d’un site à l’autre

Certains contenus comme les fiches produits données par les fabricants se retrouvent en général sur une multitude de sites e-commerce. Il est donc important dans votre stratégie de référencement naturel, d’utiliser des textes uniques et pertinents pour toutes vos publications.

Les index dupliquées

Google considère chaque URL comme unique. Suivant les techniques de développement web et les CMS utilisés, l’accueil d’un site peut être accessible depuis plusieurs adresses et donc présenter autant de contenus dupliqués qu’il y a d’adresse.

  • https://www.exemple.com/
  • https://www.exemple.com/index.html
  • https://www.exemple.com/index.asp
  • https://www.exemple.com/index.php

Le DUST (Duplicate URL, Same Text) se produit au sein d’un même site lorsqu’un même contenu est visible via plusieurs URL différentes.

Syndication et curation

Lorsque des contenus sont dupliqués volontairement sur d’autres plateformes afin d’augmenter leur visibilité, il est important de définir des règles pour les éditeurs avec lesquels vous travaillez afin que la syndication du contenu ne se transforme pas en problème de référencement pour duplicate content.

Idéalement, l’éditeur devrait utiliser la balise canonique de l’article pour indiquer que votre site est la source d’origine du contenu. Une autre option consiste à utiliser une balise noindex sur le contenu syndiqué.

Les paramètres et identifiants de session

Les sites utilisent souvent des paramètres à des fins de filtrage ou de suivi des visiteurs. De même, les identifiants de session sont utilisés pour suivre les visiteurs, par exemple en gardant une trace des articles qu’ils ont placés dans leur panier. Ces paramètres ou identifiants de session sont ajoutés à l’URL d’origine sans modifier le contenu. Encore une fois, https://www.votresite.com/ est une page différente de https://www.votresite.com/?source=rss .

Les paramètres d’URL générés dynamiquement

Ils sont souvent utilisés pour stocker certaines informations sur les utilisateurs (telles que les identifiants de session) ou pour afficher une version légèrement différente de la même page (telle qu’un ajustement de tri ou de filtrage effectué).

Cela se traduit par des URL ressemblant à ceci :

  • https://www.exemple.com/nom.html?utilisateur=ok
  • https://www.exemple.com/nom.html?tri=2
  • https://www.exemple.com/nom.html?couleur=rouge

Ces pages contiennent généralement le même contenu ou des très similaires considérés comme dupliqué. La plupart du temps, ces paramètres dynamiques créent des dizaines de versions différentes. Ces problématiques peuvent générer des soucis majeurs pour des sites e-commerces présentent des centaines ou milliers de références si ce souci s’applique à chaque référence.

Les versions avec WWW et sans WWW d’un site

Beaucoup de gens supposent que www.exemple.com et exemple.com sont identiques. Mais, ces deux URL sont complètement différentes aux yeux des moteurs de recherche. Le fait de permettre à chaque page d’un site d’être affichée dans ces deux configurations entraîne la duplication de tout un site.

Ce problème est généralement résolu en implémentant des redirections 301 ou en spécifiant votre domaine préféré dans la Search Console.

Les versions HTTPS et HTTP d’un site

De nombreux sites ont des versions sécurisées (https) et non sécurisées (http). Comme pour www et non-www, https://www.exemple.com/ et http://www.exemple.com/ ne sont pas identiques. Un site doit être accessible via l’un ou l’autre. Idéalement, la version préférée d’un site serait sécurisée (https), car Google a indiqué qu’avoir un site sécurisé était un facteur de classement positif et a annoncé qu’il indexerait d’abord les versions sécurisées des pages.

Les contenus pauvres et similaires

Lorsqu’on parle de duplication, on image souvent un contenu complètement identique. Toutefois, des éléments très similaire relèvent également de la définition.

« Si vous avez plusieurs pages similaires, envisagez d’agrandir chacuneou de les regrouper en une. Par exemple, si vous avez un site de voyage avec des pages distinctes pour deux villes, mais avec les mêmes informations, vous pouvez soit les fusionner en une sur les deux villes ou vous pouvez développer chacune pour qu’elle contienne un contenu unique sur chaque ville. » Google.

De tels problématiques peuvent fréquemment survenir avec les sites de commerce électronique, avec des descriptions de produits similaires ne différant que par quelques spécifications.

Les taxonomies

Les blogs offrent souvent la possibilité de regrouper des articles par thématiques et mots clés via les fonctionnalités de taxonomies. Cette fonctionnalité est à utiliser avec tact, car elle peut générer des contenus dupliqués très facilement si les mêmes contenus reviennent trop souvent sur les pages générées pour présenter chaque catégorie ou mot clé.

Migration de nom de domaine

Lorsque l’on change de nom de domaine, il est important de signaler e changement et d’effectuer des redirections des anciens contenus vers les nouveaux. Réussir une migration suite à un changement de nom de domaine sans perdre son travail de référencement n’est pas compliqué mais demande quelques opérations précises.

Comment éviter les soucis de contenus dupliqués sur votre site ?

Comment éviter les problèmes de duplicate content

Duplication externe

Pour lutter contre ces soucis, il faut particulièrement veiller à ces points :

  • Ne pas utiliser de contenus déjà présents sur internet.
  • Ne pas les dupliquer sur plusieurs de vos sites.
  • Veiller à ce qu’ils ne soient pas utilisés par d’autres éditeurs via le plagiat, même partiel.
  • Créer de l’original et unique et ne pas chercher la simplicité.
  • En créer des denses et ne dupliquez pas des parties même minimes de vos textes.
  • Faites la chasse au plagiat.
  • Utiliser un outil de vérification comme copyscape ou killduplicate.

Duplication interne

Corriger le duplicate content interne à un site revient à indiquer à Google, quelle page est celle à prendre en compte, et lesquelles sont des copies.

Les redirections 301

Dans de nombreux cas, le meilleur moyen de lutter contre le contenu en double consiste à configurer une redirection 301 de la page « dupliquer » vers celle d’origine. Lorsque plusieurs pages ayant le potentiel de bien classer sont combinées en une seule, elles ne cessent pas seulement de se faire concurrence, elles créent également un signal de pertinence et de popularité plus fort dans l’ensemble.

Cela aura un impact positif sur sa capacité à bien se classer. L’utilisation de l’erreur 404 ne permettra pas de conserver la puissance acquise par la page supprimée et ses liens.

Les balises rel=canonical

Une autre solution consiste à utiliser les attributs de balises rel=canonical. Une URL canonique correspond à la version préférée d’un ensemble de pages au contenu similaire qui indique aux moteurs de recherche qu’une page donnée doit être traitée comme une copie de l’URL spécifiée et que tous les liens et la popularité appliqués à cette page doivent en réalité être créditées à celle spécifiée comme canonique.

Choisir une url canonique permet de résoudre plusieurs problématiques :

  • Pour définir l’URL à afficher dans les résultats.
  • Pour regrouper les liens pour les urls similaires ou en double.
  • Pour simplifier le suivi des statistiques d’un seul produit/sujet.
  • Pour gérer le contenu syndiqué.
  • Pour éviter de perdre du temps à explorer des pages en double et optimiser le crawl Budget.

Une seule version de l’URL ne doit être soumises aux robots de Google via l’outil de fichier sitemap.

Meta Robots Noindex

La méta-tag « Noindex,Follow » peut être particulièrement utile pour traiter ces problèmes. Cette balise permet aux moteurs de recherche d’analyser les liens d’une page, mais les empêche de les inclure dans leurs index. L’utilisation de méta-robots est une solution particulièrement efficace pour les contenus en double liés à la pagination.

A lire également

  • Qu'est ce que le YMYL de Google ?
  • Qu’est-ce que le EAT de Google ?
  • Pourquoi actualiser les contenus en référencement ?
  • Qu'est ce qu'un contenu unique en SEO ?
  • Quel est l'impact de la longueur du texte en SEO ?
  • Avez vous aimé cet article ?

    Cliquez sur les étoiles pour donner une note

    Note moyenne 5 / 5. Nombre de votes : 10

    Pas de votes pour le moment, soyez le premier à voter.

    Partager la publication "Qu’est ce que le contenu dupliqué en SEO ? "