Google

La gestion des sitemaps et l'indexation des pages

jan 24 2011 Published by Franck NLEMBA under Crawl,Google image

Matt Cutts a donné le ton sur cette année 2011 et j'ai juste envie de dire qu'il était temps car les résultats sur Google du point de vue leur qualité sont très Optimisables.

De nombreux sites en France occupent de très bonnes positions sur Google France par exemple, et la qualité du contenu proposé est très médiocre. "Ce sont toujours les mêmes qui occupent les premières positions" sur la mode et le prêt à porter, les requêtes liés à l'enfant, le high tech...les petits sites ont de moins en moins de chance de se positionner sur la première page faute de moyen et parfois avec une qualité de contenu meilleure...on pourrait dire pleins de choses sur la qualité des résultats Google mais je vous laisse lire l'article de Matt Cutts

Revenons sur le sujet : l'Optimisation des sitemaps. Première précision les sitemaps dont je parle ici sont bien les XML sitemaps donc le rôle est d'aider Google à découvrir l'ensemble des contenus de vos pages. Les détails sur leur création se trouvent dans le sitemap protocol et leur monitoring se fait à partir du Google webmasters Tool.

types de sitemap dans le google webmasters tool

Le sitemap n'influence pas les positions

Si vous êtes expert du référencement naturel évidemment la question de l'utilité des sitemaps ne se pose pas (par exemple pour un site de moins de 50 pages un sitemap XML à mon avis ne sert pas à grand chose dans la mesure où le contenu est statique) à moins que vous ne les utilisiez pas pour une raison pour une autre.

L'une des erreurs que les clients font souvent c'est de considérer que le sitemap sert à améliorer les positions. La réponse est évidement non car ce qu'il faut comprendre c'est qu'avant d'être positionné sur Google votre site doit être accessible en d'autres termes les robots Google doivent pouvoir explorer l'ensemble des pages du site.

Evidemment si le site a entre 10 et 50 pages de contenu utile à l'internaute il y'a des chances que Google l'explore totalement. Vous pouvez par exemple vous en assurer avec la commande [site:www.monsite.com].

Le fait d'avoir un sitemap ou pas n'a donc aucune influence sur vos positions. Par contre si toutes les pages du site sont indexées ceci peut aider les pages du site à vous apporter plus de visites sur différents types de requêtes.

A quoi sert le taux d'indexation des sitemaps

Ce critère est très important pour deux raisons:

  • Ils vous donnent la proportion de pages de votre site qui sont dans l'index principal de Google
  • Ils vous donne une idée de la qualité de vos pages car si Google les indexe totalement ceci revient à dire que votre contenu remplit certains critères de qualité

On considère en général qu'un bon taux d'indexation se situe à 40%. Si vous avez un taux d'indexation inférieur à 40% il faut essayer d'identifier les pages qui font moins de visites chaque mois et celles qui reçoivent moins de liens la réponse est peut être là!

Comment organiser mes sitemaps?

Rob de Distilled a récemment publié un excellent article sur la gestion des xml sitemaps. La majorité des techniques qui y sont expliquées peuvent être appliquées à un moment ou à un autre selon le type de site. Ce qu'il faut retenir c'est que le fait d'éclater vos urls dans différents fichiers selon leurs types facilitera l'analyse.

sitemaps

Pour Finir Google continue d'améliorer la manière dont il découvre les contenus sur Internet, il est donc important lorsque l'on a des vidéos sur un site de penser à faire un sitemap pour héberger les urls de ces vidéos ou encore un sitemap pour les images du site

No responses yet

Indexation: Google découvre les pages à travers les flux RSS et Atom

nov 03 2009 Published by Franck NLEMBA under Crawl

Le plus important pour le référencement naturel est de s'assurer que toutes les pages du site sont bien indexées. Les méthodes d'indexation et de crawl ont beaucoup évoluées (voir article sur le real time search.) On se souvient qu'avant pour être présent Google avait besoin que le webmaster du site déclare son site sur une plate forme dédiée http://www.google.com/addurl/.

Quelques années plus tard on s'est aperçut que le fait de déclarer l'url ne suffisait pas car les robots préfèrent découvrir les pages à travers les liens entrants qui pointent vers ces dernières et par conséquent il était préférable pour s'assurer que votre site sera rapidement pris en compte d'obtenir un lien entrant depuis un site qui est déjà crawlé par le google_bot...ou de publier un XML sitemap,...

Dans un communiqué Officiel du google webmaster central blog, Google déclare qu'utiliser les flux RSS permet aux robots d'être informé assez rapidement des nouveaux contenus et surtout des contenus frais.

J'analyse cette information sous plusieurs angles. Je pense d'abord que le contenu "frais" et "actualisé" prend de plus en plus une place considérable dans l'algorithme Google. Nous en avons déjà parlé sur ce blog. En effet avant il suffisait d'avoir pleins de liens entrants vers une page pour qu'elle soit sur les premiers résultats. Aujourd'hui la complexité de l'algorithme fait que sur certaines requêtes la "fraîcheur du contenu" dépasse le nombre et la qualité des liens.

C'est aussi la preuve que l'indexation des flux RSS et Atom est arrivé à maturité chez Google; car on se souvient du communiqué Officiel de Google sur l'indexation des flux RSS des blogs où les équipes Google précisaient que l'algorithme allait désormais indexait le contenu de la page dont le robot découvrait l'Url.

Bien que l'article Google ne soit pas très complet car on ne sait pas si google va se contenter de crawler l'url de la page pour aller indexer son contenu plus tard ou si le crawl et l'indexation de la page se front au moment du crawl du flux?!

Qu'à cela ne tienne je vous conseillerai si vous souhaitez publier des flux rss sur votre site et surtout si vous souhaitez faciliter l'indexation de vos pages il faut faire des flux RSS complets et non partiels. Cela aiderait sûrement à avoir plus de visibilité sur les moteurs de recherche

No responses yet