Indexation: Google découvre les pages à travers les flux RSS et Atom
Le plus important pour le référencement naturel est de s'assurer que toutes les pages du site sont bien indexées. Les méthodes d'indexation et de crawl ont beaucoup évoluées (voir article sur le real time search.) On se souvient qu'avant pour être présent Google avait besoin que le webmaster du site déclare son site sur une plate forme dédiée http://www.google.com/addurl/.
Quelques années plus tard on s'est aperçut que le fait de déclarer l'url ne suffisait pas car les robots préfèrent découvrir les pages à travers les liens entrants qui pointent vers ces dernières et par conséquent il était préférable pour s'assurer que votre site sera rapidement pris en compte d'obtenir un lien entrant depuis un site qui est déjà crawlé par le google_bot...ou de publier un XML sitemap,...
Dans un communiqué Officiel du google webmaster central blog, Google déclare qu'utiliser les flux RSS permet aux robots d'être informé assez rapidement des nouveaux contenus et surtout des contenus frais.
J'analyse cette information sous plusieurs angles. Je pense d'abord que le contenu "frais" et "actualisé" prend de plus en plus une place considérable dans l'algorithme Google. Nous en avons déjà parlé sur ce blog. En effet avant il suffisait d'avoir pleins de liens entrants vers une page pour qu'elle soit sur les premiers résultats. Aujourd'hui la complexité de l'algorithme fait que sur certaines requêtes la "fraîcheur du contenu" dépasse le nombre et la qualité des liens.
C'est aussi la preuve que l'indexation des flux RSS et Atom est arrivé à maturité chez Google; car on se souvient du communiqué Officiel de Google sur l'indexation des flux RSS des blogs où les équipes Google précisaient que l'algorithme allait désormais indexait le contenu de la page dont le robot découvrait l'Url.
Bien que l'article Google ne soit pas très complet car on ne sait pas si google va se contenter de crawler l'url de la page pour aller indexer son contenu plus tard ou si le crawl et l'indexation de la page se front au moment du crawl du flux?!
Qu'à cela ne tienne je vous conseillerai si vous souhaitez publier des flux rss sur votre site et surtout si vous souhaitez faciliter l'indexation de vos pages il faut faire des flux RSS complets et non partiels. Cela aiderait sûrement à avoir plus de visibilité sur les moteurs de recherche






