La quasi totalité des sites E-commerce que j’ai étudié rencontrent systématiquement un problème de duplication de contenu généralement connu sous l’appellation « duplicate content ».
En effet si vous disposez d’un compte webmaster tool quelque soit le moteur Google, Yahoo! ou Bing vous pouvez avoir accès aux données collectées par les robots lors de la phase d’exploration. En général dans la partie contenu les moteurs reportent les pages qui ont des méta description, meta title en double….
Les raisons de la présence du duplicate content dans les sites et particulièrement dans les sites E-commerce sont nombreuses:
- Génération des urls dynamiques
- Gestion des pages listes
- Paramétrage du remplissage automatique des balises dans le back-office
- version imprimables des pages (catalogue en version pdf par exemple)
- articles ou pages liées ou accessibles à travers plusieurs urls…
Pour résoudre ce problème les moteurs de recherches ont proposé une solution la « canonicalisation« : Pour mieux contrôler la manière dont vos URL apparaissent dans les résultats de recherche et pour regrouper des propriétés telles que la popularité des liens, nous vous recommandons de choisir une URL canonique (préférée) comme version préférée de la page. Lire la suite sur google
Le canonical tag qui fonctionne un peu comme une redirection permanente 301 que les développeurs appliquent dans le fichier .htaccess permet aux moteurs de recherche de savoir quelle est la version de page préférée du webmaster.
Le problème à mon avis c’est que l’on ne sait pas si l’intégration du canonical tag est une garantie pour récupérer tout le poentiel des pages redirigées. Je vais préciser le problème:
Supposons que vous avez un site de vente de vêtements pour enfants comme DPAM et que votre produit préféré soit une robe pour bébé fille. Cette page est accessible à travers plusieurs urls. Ces 3 urls ont le même contenu (méta, images, …) et reçoivent respectivement des liens entrants.
On peut observer plusieurs conséquences:
- les liens entrants sont réparties entre les 03 pages ce qui dilue le potentiel du site sur des requêtes sur la robe pour bébé fille,
- les moteurs de recherches crawlent les 03 pages et consomment donc de la bande passante,
- les moteurs de recherches affichent la mauvaise url (par exemple une url avec des IDs) ce qui ne poussent pas l’internaute à cliquer sur le lien du site lorsqu’il lui est proposé sur les résultats de recherche…
Les 03 solutions pour gérer le « duplicate content » [duplication de contenu]
Définir votre domaine favori sur le google webmaster tool (http://www.example.com ou http://example.com)
Utiliser le canonical tag pour préciser l’url canonique en rajoutant l'attribut rel="canonical+ url canonique" dans le code source des pages non canoniques. En savoir plus
Introduire uniquement les urls non canoniques dans le sitemap
Quelques exemples de duplicate content:
http://example.com/robes/cocktail?gclid=ABCD
http://www.example.com/robes/robesvertes.html
http://www.example.com/produits?catégorie=robes&couleur=vert&cruel=non