Etre premier sur Google et y rester Nous créons une stratégie SEO gagnante de A à Z. Je veux améliorer ma visibilité
Temps de lecture : 9 minutes
5
(10)

Contenu dupliqué : duplicate content, plagiat et impact sur le référencement

Tout savoir sur le contenu dupliqué en référencement naturel

Les problématiques de contenus dupliqués sont courantes en référencement naturel et peuvent avoir des conséquences négatives sur vos efforts en matière de SEO et de positionnement dans les résultats de Google et de trafic en ligne.

Le duplicate content ferait partie des 5 problèmes les plus courants en SEO. De ce constat, il semble important d’aborder ce sujet de savoir quelles sont les causes qui peuvent amener Google à considérer qu’un contenu est dupliqué, aboutissant à des conséquences nuisibles sur votre travail d’acquisition de visibilité et de trafic.

La qualité du contenu en SEO passe d’abord par des textes uniques, sur le site et en dehors.

Qu’est-ce que le contenu dupliqué ou duplicate content en référencement ?

Le contenu dupliqué fait référence à un contenu très similaire, ou exactement identique. Le contenu en double est un contenu qui apparaît sur Internet à plusieurs endroits. Ces emplacements sont définis par des adresses de site Web uniques ( URL ). Ainsi, si le même contenu apparaît à plusieurs adresses Web, vous avez un contenu en double.

Le duplicate content peut se trouver sur des sites différents, mais aussi au sein d’un même site internet. On estime que 25 à 30% du Web est composé de contenus en double. Le contenu dupliqué est un contenu qui ajoute peu ou pas de valeur à vos visiteurs. Par conséquent, les pages avec peu ou pas de corps sont également considérées comme du contenu en double.

Les contenus dupliqués présentent plusieurs désavantages :

  • Le contenu dupliqué n’apporte pas ou peu de valeur ajoutée au moteur de recherche, ni à vos visiteurs.
  • Ils peuvent nuire à votre travail de référencement naturel en ligne.
  • Le contenu en double peut avoir de nombreuses origines intentionnelles ou non.

Voici la définition de Google au sujet du duplicate content : Dupliquer le contenu fait généralement référence à des blocs substantiels de contenu dans ou entre des domaines qui correspondent complètement à un autre contenu ou qui sont sensiblement similaires.

Pourquoi Google lutte-t-il contre le contenu dupliqué ?

Le contenu dupliqué et sa gestion par Google

Le premier but premier de l’entreprise de Mountain View est de proposer à ses utilisateurs une expérience optimale en termes de recherches sur son moteur. Le second est d’économiser des ressources en se focalisant sur les contenus légitimes et uniques.

À partir de ces deux constats, il est important pour le moteur de recherche Google de lutter contre les contenus qui n’apportent pas de valeur particulière. Google valorise et récompense donc le contenu original. C’est un excellent moyen d’augmenter le coût du référencement tout en créant une meilleure expérience utilisateur.

Lorsque Googlebot visite votre site, il enregistre le contenu dans ses bases de données. Le contenu est comparé aux autres contenus de la base de données. Si des correspondances substantielles sont trouvées, Google peut décider que votre contenu est dupliqué.

Google décidera quelle version du contenu est la plus fiable et la plus digne d’être présentée aux internautes.

La duplication du contenu est un réel problème lorsque vous avez plusieurs versions d’un même texte sur votre site. Dans ces cas Google peut avoir du mal à choisir quelle page de contenu afficher.

Quels sont les problèmes posés par le contenu dupliqué pour votre SEO ?

Les principaux problèmes de duplicate content

La duplication de contenu peut avoir des répercussions importantes sur votre référencement selon qu’il s’agit d’une duplication en interne ou en externe.

Le duplicate content interne et externe pose ces soucis :

  • Budget de crawl non optimisé : Google limite ses visites sur votre site pour optimiser ses ressources machines. Des contenus dupliqués en trop grand nombre peuvent gaspiller ce crawl budget et empêcher de centraliser les ressources d’indexation sur les contenus uniques et importants.
  • Pénalités de type Panda : les pages ayant des contenus trop peu développés peuvent être considérées comme du contenu dupliqué ou trop similaire et aboutir à des pénalités pour contenus trop pauvres. Il est important d’éviter de générer des pages de manière automatique avec des textes pauvres sans valeur ajoutée
  • Dilution du netlinking : en proposant des URL différentes pour un même contenu, vous augmentez les chances de recevoir des liens externes sur plusieurs pages plutôt que de centraliser les backlinks sur un contenu unique accessible à partir d’une URL unique. Google aura du mal à consolider les métriques des liens pour le contenu, en particulier lorsque d’autres sites génèrent des liens vers plusieurs versions d’un contenu.
  • Manque de maîtrise sur les contenus à positionner : lorsque Google détecte des pages de contenu en double (titre, descriptions, contenus…), il favorise en général une page et peut afficher une autre page que celle que vous souhaitez mettre en avant.
  • Déterminer de qui vient le contenu original : lorsque plusieurs versions d’un contenu sont disponibles, il est difficile pour Google de déterminer quelle version afficher dans leurs résultats de recherche et de savoir qui en est l’auteur original. Si le contenu est dupliqué sur un site ayant une plus grande autorité que le site copié, le contenu peut être attribué au site du copieur faisant plus grande autorité.

Existe-t-il une pénalité de contenu en double de par part de Google ?

La duplication de contenu peut nuire à votre performance en matière de référencement , mais cela ne vous occasionnera aucune pénalité de la part de Google tant que vous n’avez pas intentionnellement copié le site Web de quelqu’un d’autre . Si vous êtes un propriétaire de site Web honnête et que vous rencontrez des soucis techniques sans essayer pas de tromper Google, vous n’avez pas à craindre de pénalité de la part de Google.

Si vous avez copié volontairement de grandes quantités de contenu provenant d’autres sites, vous vous retrouvez dans une situation délicate.

«Le contenu dupliqué sur un site Web ne constitue pas un motif d’action sur ce site, sauf s’il apparaît que l’intention du contenu dupliqué est d’être trompeuse et de manipuler les résultats des moteurs de recherche .” Google.

Quelles sont les causes principales du duplicate content ?

Les cause du contenu dupliqué

Ces problématiques peuvent avoir de nombreuses origines qui sont plus ou moins faciles à identifier selon que l’on soit spécialiste du référencement naturel ou non. Nous allons lister ici les principales origines qui amènent des contenus à être dupliqués.

Vol de contenu et copie

Google n’est pas toujours en mesure de faire la distinction entre l’original et la copie en matière de contenu. Il est donc important de surveiller les éventuelles copies de textes dont vous pourriez être victime. Il existe un certain nombre d’outils qui permettent de mettre en place une veille à ce niveau. L’outil Copyscape est le plus connu.

Contenu dupliqué d’un site à l’autre

Certains contenus comme les fiches produits données par les fabricants se retrouvent en général sur une multitude de sites e-commerce. Il est donc important dans votre stratégie de référencement naturel, d’utiliser des contenus uniques et pertinents pour toutes vos publications.

Les pages index dupliquées

Google considère chaque URL comme unique. Suivant les techniques de développement web et les CMS utilisés, la page d’accueil d’un site internet peut être accessible depuis plusieurs adresses et donc présenter autant de contenus dupliqués qu’il y a d’adresse.

  • https://www.exemple.com/
  • https://www.exemple.com/index.html
  • https://www.exemple.com/index.asp
  • https://www.exemple.com/index.php

Le DUST (Duplicate URL, Same Text) se produit au sein d’un même site web lorsqu’un même contenu est visible via plusieurs URL différentes.

Le contenu syndiqué et curation

Lorsque des contenus sont dupliqués volontairement sur d’autres plateformes afin d’augmenter leur visibilité, il est important de définir des règles pour les éditeurs avec lesquels vous travaillez afin que la syndication du contenu ne se transforme pas en problème de référencement pour duplicate content.

Idéalement, l’éditeur devrait utiliser la balise canonique de l’article pour indiquer que votre site est la source d’origine du contenu. Une autre option consiste à utiliser une balise noindex sur le contenu syndiqué.

Les paramètres et identifiants de session

Les sites Web utilisent souvent des paramètres à des fins de filtrage ou de suivi des visiteurs. De même, les identifiants de session sont utilisés pour suivre les visiteurs, par exemple en gardant une trace des articles qu’ils ont placés dans leur panier. Ces paramètres ou identifiants de session sont ajoutés à l’URL d’origine sans modifier le contenu de la page. Encore une fois, https://www.yoursite.com/ est une page différente de https://www.yoursite.com/?source=rss .

Les paramètres d’URL générés dynamiquement

Les paramètres générés dynamiquement sont souvent utilisés pour stocker certaines informations sur les utilisateurs (telles que les identifiants de session) ou pour afficher une version légèrement différente de la même page (telle qu’un ajustement de tri ou de filtrage effectué). Cela se traduit par des URL ressemblant à ceci :

  • https://www.exemple.com/page.html?utilisateur=ok
  • https://www.exemple.com/page.html?tri=2
  • https://www.exemple.com/page.html?couleur=rouge

Ces pages contiennent généralement le même contenu ou des contenus très similaires considérés par Google comme du contenu dupliqué. La plupart du temps, ces paramètres dynamiques ne créent des dizaines de versions différentes d’un même contenu. Ces problématiques peuvent générer des soucis majeurs pour des sites e-commerces présentent des centaines ou milliers de références si ce souci s’applique à chaque référence.

Les versions avec WWW et sans WWW d’un site

Beaucoup de gens supposent que www.exemple.com et exemple.com sont la même page. Mais, ces deux URL sont en fait deux pages complètement différentes aux yeux des moteurs de recherche. Le fait de permettre à chaque page d’un site d’être affichée dans ces deux configurations entraîne la duplication de tout un site.

Ce problème est généralement résolu en implémentant des redirections 301 ou en spécifiant votre domaine préféré dans la search console de Google.

Les versions HTTPS et HTTP d’un site

De nombreux sites ont des versions sécurisées (https) et non sécurisées (http). Comme pour www et non-www, https://www.exemple.com/ et http://www.exemple.com/ ne sont pas la même page pour Goolge. Un site doit être accessible via l’un ou l’autre. Idéalement, la version préférée d’un site serait sécurisée (https), car Google a indiqué qu’avoir un site sécurisé était un facteur de classement positif et a annoncé qu’il indexerait d’abord les versions sécurisées des pages.

Les contenus pauvres et similaires

Lorsqu’on parle de duplication de contenu, on image souvent un contenu complètement identique. Toutefois, des éléments de contenu très similaire relèvent également de la définition de contenu en double de Google.

“Si vous avez plusieurs pages similaires, envisagez d’agrandir chaque page ou de les regrouper en une. Par exemple, si vous avez un site de voyage avec des pages distinctes pour deux villes, mais avec les mêmes informations sur les deux pages, vous pouvez soit fusionner les pages en une page sur les deux villes ou vous pouvez développer chaque page pour qu’elle contienne un contenu unique sur chaque ville.” Google.

De tels problématiques peuvent fréquemment survenir avec les sites de commerce électronique, avec des descriptions de produits similaires ne différant que par quelques spécifications.

Les taxonomies

Les blogs offrent souvent la possibilité de regrouper des articles par thématiques et mots clés via les fonctionnalités de taxonomies. Cette fonctionnalité est à utiliser avec tact, car elle peut générer des contenus dupliqués très facilement si les mêmes contenus reviennent trop souvent sur les pages générées pour présenter chaque catégorie ou mot clé.

Migration de nom de domaine

Lorsque l’on change de nom de domaine en SEO, il est important de signaler à Google ce changement et d’effectuer des redirections des anciens contenus vers les nouveaux. Réussir une migration suite à un changement de nom de domaine sans perdre son travail de référencement n’est pas compliqué mais demande quelques opérations précises.

Comment éviter les soucis de contenus dupliqués sur votre site internet ?

Comment éviter les problèmes de duplicate content

Duplication de contenu externe

Pour lutter contre ces soucis, il faut particulièrement veiller à ces points :

  • Ne pas utiliser de contenus déjà présents sur internet.
  • Ne pas dupliquer vos contenus sur plusieurs de vos sites.
  • Veiller à ce que vos contenus ne soient pas utilisés par d’autres éditeurs via le plagiat, même partiel.
  • Créer du contenu original et unique et ne pas chercher la simplicité.
  • Créer des contenus denses et ne dupliquez pas des parties même minimes de vos textes.
  • Faites la chasse au plagiat de vos contenus.
  • Utiliser un outil de vérification comme copyscape ou killduplicate.

Duplication de contenu interne

Corriger le duplicate content interne à un site revient à indiquer à Google, quelle page est celle à prendre en compte, et lesquelles sont des copies.

Les redirections 301

Dans de nombreux cas, le meilleur moyen de lutter contre le contenu en double consiste à configurer une redirection 301 de la page “dupliquer” vers la page de contenu d’origine. Lorsque plusieurs pages ayant le potentiel de bien classer sont combinées en une seule page, elles ne cessent pas seulement de se faire concurrence. ils créent également un signal de pertinence et de popularité plus fort dans l’ensemble. Cela aura un impact positif sur la capacité de la page “correcte” à bien se classer dans les résultats de Google. L’utilisation de l’erreur 404 ne permettra pas de conserver la puissance acquise par la page supprimée et ses liens.

Les balises rel=canonical

Une autre solution pour traiter le contenu dupliqué consiste à utiliser les attributs de balises rel=canonical. Une URL canonique correspond à la version préférée d’un ensemble de pages au contenu similaire qui indique aux moteurs de recherche qu’une page donnée doit être traitée comme une copie de l’URL spécifiée et que tous les liens, métriques de contenu et popularité appliqués par Google à cette page doivent en réalité être créditées à la page spécifiée comme page canonique.

Choisir une url canonique permet de résoudre plusieurs problématiques :

  • Pour définir l’URL à afficher dans les résultats Google.
  • Pour regrouper des indicateurs de liens pour les pages similaires ou en double.
  • Pour simplifier le suivi des statistiques d’un seul produit/sujet.
  • Pour gérer le contenu syndiqué.
  • Pour éviter de perdre du temps à explorer des pages en double et optimiser le crawl Budget.

Une seule version de l’URL ne doit être soumises aux robots de Google via l’outil de fichier sitemap.

Meta Robots Noindex

La méta-tag “Noindex,Follow” peut être particulièrement utile pour traiter ces problèmes. Cette balise permet aux moteurs de recherche d’analyser les liens d’une page, mais les empêche de les inclure dans leurs index. L’utilisation de méta-robots est une solution particulièrement efficace pour les contenus en double liés à la pagination.

A lire également

  • Le YMYL (Your Money Your Life) de Google
  • Google EAT (Expertise - Autorité - Fiabilité)
  • Pourquoi actualiser les contenus en référencement ?
  • La notion de contenu unique en référencement
  • Quel est l'impact de la longueur du texte en SEO ?
  • Avez vous aimé cet article ?

    Cliquez sur les étoiles pour donner une note

    Note moyenne 5 / 5. Nombre de votes : 10

    Pas de votes pour le moment, soyez le premier à voter.

    Partager la publication "Comment éviter le contenu dupliqué en SEO ? "
    Partager sur facebook
    Partager sur twitter
    Partager sur linkedin
    Partager sur email