Google

Archive for the 'Uncategorized' category

La gestion des doublons par une meilleure stratégie d'indexation

juin 13 2010 Published by Franck NLEMBA under Uncategorized

Suite au lancement du nouvel "index" Google caffeine il est nécessaire de faire un petit point sur l'indexation par les moteurs de recherche et particulièrement sur la gestion des doublons.

L'indexation est un processus simple et complexe à la fois. Simple car une fois que les robots Google accède à une page ils ont la possibilité de l'indexer (l'intégrer dans les bases de données Google) compliqué car cette intégration n'est pas forcément définitive car on sait que Google filtre de plus en plus les mauvaises pages et les mauvais liens. En tant que webmaster l'intégration de pages du site dans les bases de données Google et l'obtention d'un taux d'indexation croissant sont de vrais enjeux, beaucoup plus important que le suivi des positions qui lui est beaucoup plus aléatoire.

Quelques techniques m'ont permis par exemple d'atteindre des taux d'indexation très importants et c'est ce dont je vais parler dans les lignes suivantes:

Sitemap HTML et sitemap XML

j'ai l'habitude de mettre en place ces deux fichiers pour les raisons que l'on connait: le sitemap HTML est généralement en footer des pages pour permettre aux internautes de connaitre la structure du site. Il permet en outre à Google d'accéder directement aux pages profondes à partir de ma page d'accueil. Je conseille donc de le détaillé au maximum de manière très structurée. Une évolution de ce ficher consisterait à utiliser des ancres particulières au niveau des liens internes afin de maximiser le potentiel SEO de certaines pages.

Supposons que l'on est sur un guide pour séjour étudiant avec pleins de pages profondes. Une "best practice" serait de créer une plan de site html le plus exhaustif possible en reprenant l'arborescence du site (conseils Avant de partir, sur place, avant et après...) mais en utilisant des ancres plus suggestives pour renvoyer vers des pages précises. Par exemple sur le front de gullivearth on a Banque/argent pour parler des "conseils pour ouvrir un compte bancaire aux USA"; ainsi l'ancre du lien au niveau du plan de site pour cette page sera par exemple "ouverture de compte".

Le XML sitemap quant à lui permet tout simplement à Google de connaitre toutes les urls du site et d'en extraire le maximum. Sa position à la racine du site au niveau du serveur facilite sa prise en compte. Toutefois il n'est pas toujours facile de faire évoluer le taux d'indexation. La solution passe ici par une meillure dynamique de liens internes et par les backlinks.

Indexation & Doublons

Il est très courant sur de très gros sites ou encore sur des sites E-commerce d'avoir des doublons. Je ne vais pas revenir ici sur toutes les solutions qui existent pour gérer les doublons. Je vais juste m'arrêter sur un cas particulier.

Dans son éxigence de pertinence Google peut considérer que les deux urls suivantes sont différentes même si elles présentent le même contenu:

www.monsite.com et www.monsite.com/

"... Google treats each URL above separately (and equally) regardless of whether it’s a file or a directory, or it contains a trailing slash or it doesn’t contain a trailing slash...."

La première Google_bot se dit que c'est la page finale et la seconde Google_bot se dit qu'elle fait référence à un répertoire ou à un dossier au niveau du serveur. Or dans la plupart des cas ces urls ont en général le même contenu (comment peut-il en être autrement). A ce sujet il y'a deux solutions:

  • Bloquer dans le webmaster tool le (/) au niveau des paramètres à ignorer
  • intégrer le canonical tag au niveau de l'url canonique de manière à communiquer au robot la bonne version de l'url

En effet l'intégration de la version canonique de l'url au niveau de l'url canonique permettre à google de ne pas considérer que www.monsite.com/ est une page différente.

Lien utile http://googlewebmastercentral.blogspot.com/2010/04/to-slash-or-not-to-slash.html

No responses yet