A la simple mention de l’expression « duplicate content », beaucoup de marketeurs, pourtant parfaitement raisonnables en temps normal, se mettent à voir des petits pandas danser autour d’eux.
Alors, le duplicate content, ça fait peur… mais qu’est-ce que c’est exactement ? En quoi le duplicate content peut-il affecter votre référencement web et comment l’éviter ?
Dans cet article, nous verrons :
- Définition du duplicate content
- Risquez-vous une pénalité Google ?
- Quelles conséquences pour le contenu dupliqué ?
- Comment détecter le duplicate content ?
- Comment résoudre le duplicate content ?
1. Qu’est-ce que le duplicate content ?
Le duplicate content, ou contenu dupliqué, c’est encore Google qui en parle le mieux. Voici la définition qu’en donne le moteur de recherche :
« Le duplicate content désigne généralement des blocs substantiels de contenus, à l’intérieur d’un domaine ou dans des domaines différents, qui sont soit complètement identiques, soit très largement similaires. Dans la plupart des cas, le duplicate content n’est pas volontaire. »
De manière générale, on parle de duplicate content lorsque deux contenus sont identiques ou similaires. Bien que souvent d’origine involontaire, on estime que le duplicate content représente environ 29% du contenu web (Raven, 2015).
Il existe donc plusieurs types de contenus dupliqués :
- le contenu dupliqué involontairement d’ordre technique, souvent dûs à des paramétrages d’un Content Management System (CMS),
- le contenu dupliqué involontairement par mégarde par le webmaster, comme l’utilisation en double de titres ou de portions de textes,
- le contenu plagié délibérément pour essayer de duper les moteurs de recherche, d’améliorer ses rankings et de générer plus de trafic. Google met clairement en garde les propriétaires de sites web contre ce type de pratiques qui aboutissent à une expérience utilisateur décevante,
- le contenu dupliqué dans le cadre d’annuaires ou d’une stratégie de netlinking mal gérée.
2. Le duplicate content nuit-il à votre SEO ?
Oui, la mise à jour de l’algorithme de Google Panda en 2011 visait à lutter contre les fermes de contenus (sites publiant beaucoup de contenus pris sur d’autres sites = contenus dupliqués) et les sites avec des pages de faible qualité. Cela a provoqué de réelles pénalités pour ces sites et il est rentré dans les moeurs que le duplicate content pouvait provoquer des pénalités.
Cela a été démenti en juin 2016 par Andrey Lipattsev en charge de la « Search Quality » chez Google : vous n’aurez pas de pénalité, mais vous ne serez pas forcément bien référencé.
3. Quelles sont les conséquences du duplicate content ?
Le duplicate content a des implications sur la façon dont les moteurs de recherche indexent les contenus. En cas de duplicate content :
- Les moteurs de recherche vont devoir faire un choix sur quelle version du contenu référencer.
- Les moteurs de recherche vont passer plus de temps à crawler vos contenus et potentiellement moins bien référencer certains bons contenus.
Imaginons que vous soyez propriétaire d’un site web présentant des cas de duplicate content. Vous risquez, si vous n’intervenez pas, de voir votre positionnement dans les résultats de recherche (SERP) se dégrader et perdre du trafic. Vous voulez savoir pourquoi ?
- Pour offrir à leurs utilisateurs la meilleure expérience, les moteurs de recherche ne vont pas proposer plusieurs versions d’un même contenu. Ils seront forcés de choisir la version qui, selon eux, constitue le meilleur résultat.
- La valeur des liens entrants vers votre site sera aussi diluée puisque les sites référents auront le choix entre différentes versions du même contenu. Au lieu que tous les liens pointent vers un seul contenu, ils pointeront vers différentes entrées. Or, le link building est un facteur-clé en termes de rankings.
En résumé, votre contenu n’atteint pas la visibilité qu’il aurait dû avoir sur les moteurs de recherche. Et vous perdez du trafic SEO. C’est grave, docteur ? Assez, mais heureusement, il existe des solutions !
4. 4 outils pour détecter le duplicate content
SiteLiner, pour scanner les contenus dupliqués internes
SiteLiner propose de scanner rapidement et gratuitement votre site (jusqu’à 250 pages dans sa version gratuite). L’outil va ainsi pouvoir identifier les contenus en double, ainsi que d’autres indicateurs comme le nombre de liens internes et externes sur vos pages.
Duplichecker, pour vous assurer de ne pas publier du contenu dupliqué
Duplichecker vous permet de vérifier gratuitement si votre article, en ligne ou à venir, est original ou non, en comparant le taux de similitude à d’autres articles sur la même thématique.
MozBar, pour vérifier vos redirections et vos balises
Il existe différents petits tests que vous pouvez simplement effectuer pour vérifier que votre site fonctionne correctement, en commençant par installer la MozBar (gratuite avec une simple inscription) : vous pourrez ainsi vérifier les redirections et balises canoniques (on y vient plus tard dans cet article).
Google Search Console, pour identifier les améliorations possibles
Vous pouvez également utiliser Google Search Console. Vous allez dans le menu « Apparences dans les résultats de recherche », puis sur « Améliorations HTML » et vous obtenez un rapport qui, le cas échéant, vous indiquera si vous avez des contenus dupliqués.
5. Comment détecter les contenus dupliqués ?
La plupart des contenus dupliqués sont non-intentionnels. Alors, en avez-vous créé ? Il est maintenant temps de les détecter.
Détecter les duplicate content http / https
Il es très facile de détecter si les deux versions (sécurisées ou non) de votre site sont accessibles : tapez votre URL en http dans la barre de recherche et vérifiez que vous êtes bien redirigés vers la version sécurisée. La barre Moz vous confirmera la redirection :Si vous pouvez accéder aux deux versions sans redirection, c’est que votre site est « dupliqué ».
Détecter les duplicate content avec et sans www.
Beaucoup d’hébergeur génèrent de manière automatique une version accessible avec www et sans www. dans les URL. Cela est une nouvelle forme de duplicate content et il suffit de tapper les variantes dans votre navigateur pour effectuer les vérifications. Comme pour les versions http/https, la barre Moz vous indiquera si le site est dupliqué.
Indexation des versions de développement d’un site
Voilà une autre erreur bien connue des webmasters : indexer sans le vouloir une version de développement ou de test d’un site.
Pour faire face à cela : le fichier robot.txt, ou encore les plugins de maintenance. Si vous êtes sur WordPress, il suffit d’aller dans Réglages > Lecture pour demander de ne pas indexer un site. Pensez cependant à bien décocher cette préférence lors de la mise en ligne…
Les pages faibles générées par les CMS
Les CMS comme WordPress génèrent de nombreuses pages qui seront interprétées comme du contenu dupliqué par les moteurs de recherche :
- Pages de catégories
- Pages de tags
- Pages « attachment »
- Pages portfolio
- etc.
6. Comment résoudre vos problèmes de duplicate content ?
En réalité, tous vos efforts pour éviter les problèmes de duplicate content sur votre site tendront vers une seule et même idée : spécifier aux moteurs de recherche quelle est la « bonne » version à prendre en compte. Dans la pratique, il y a 2 façons principales d’indiquer la bonne destination aux moteurs de recherche :
- La redirection 301 : cette pratique consiste à rediriger de la page dupliquée vers la page de contenu originale. Ainsi, non seulement, les pages dupliquées cessent de se battre entre elles pour les rankings mais, mieux encore, elles envoient un signal de pertinence et de popularité encore plus puissant aux moteurs de recherche. La redirection 301 aura donc pour effet d’améliorer sensiblement le ranking de la page d’origine.
- La balise rel=canonical : l’utilisation de balises canoniques est un autre moyen de lutter contre les effets négatifs du duplicate content. En effet, ces balises indiquent aux moteurs de recherche que la page en question devrait être traitée comme la copie d’une URL donnée. Et, par conséquent, tous les liens, les metrics et autres éléments de rankings devraient être attribués à l’URL spécifiée.
- Les paramétrages SEO du CMS, comme l’utilisation du plugin WordPress Yoast SEO, permettent de spécifier aux moteurs de ne pas indexer certains contenus pauvres.
Pour les contenus dupliqués en externe, la première solution consiste à contacter le webmaster du site, par les réseaux sociaux par exemple. Si ce n’est pas possible, vous pouvez tenter le rapport de Spam de Google, mais il vous sera très compliqué de vous faire entendre…
La présence de duplicate content sur votre site a des effets négatifs sur votre référencement SEO et donc sur votre trafic web. Vous gagnerez donc à vérifier régulièrement si votre site comporte du duplicate content et d’apporter des correctifs si nécessaire.
Et vous, avez-vous déjà connu des problèmes de duplicate content ? Comment avez-vous réagi ?