Google

Archive for the 'Crawl' category

Mise à jour de Google Panda: Panda 2.5

oct 01 2011 Published by Franck NLEMBA under Crawl

Depuis hier, le search engine Land a relayé une information selon laquelle une nouvelle mise à jour de l'algorithme Panda a été lancée par Google. Faute d'un manque de communication officielle, pour l'instant les spéculations vont bon train. Pour information rappelons que l'algorithme Google panda vise à améliorer la qualité des résultats de recherche en retrogradant la position de certains sites internet au profit d'autres jugés plus pertinents.

Le processus intial intègre donc la notation des sites web par un panel d'utilisateurs et le déploiement algorithmique mais progressif du comportement de ce panel sur un échantillon de requêtes afin de classer les résultats ou de les re-classer. Il s'agirait donc de la mise à jour google panda 2.5. Si vous avez déjà été victime de Google panda ou si vous souhaitez l'éviter je vous propose de lire les articles ci-dessous. Bon courage

Ressources Utiles sur la mise à jour de Google Panda


Essaie de description de l'algorithme Google Panda

Conseils pour mieux préparer l'arrivée de Google panda en France

Comment éviter google panda

Comment google va se servir des données des internautes pour modifier son algorithme

Déploiement officiel de Google panda en France

algorithme panda

No responses yet

Changements sur l'interface du google webmasters tools

sept 30 2011 Published by Franck NLEMBA under Crawl

Mise à jour du 17/08/2012

Quelques modifications récentes sur l'interface du Google webmaster tools ont attiré mon attention et j'ai jugé utile d'en parler car je ne suis pas sûr que tous les experts qui tombent sur cet articles sont au courant de ces nouvelles possibilités:

#1- Téléchargement des données du Google webmasters tools dans Google Doc

Désormais au moment de l'exportation de vos données vous aurez le choix entre télécharger les données en local (CSV) ou directement sur Google Document. L'avantage avec Google Doc c'est que vous pourrez mettre à jour le tableau et le partager plus facilement avec le client.

2# Télécharger les derniers Liens entrants

C'est bien connu, pour être bien référencé il faut avoir des liens entrants en qualité et en quantité. Le Google webmasters Tools donnait déjà la possibilité de connaitre les liens qui pointent vers votre site Web d'une part mais aussi les pages qui reçoivent le plus de liens entrants. Tout récemment, Google a donné la possibilité de télécharger les derniers liens vers votre site

Ceci est utile a plus d'un titre dans la mesure où vous aurez une idée des partenaires les plus efficaces d'une part mais aussi des sites qui parlent de vous naturellement pour des opportunités de partenariats ou d'opérations marketing.

Lorsque j'ai commencé à parler à mes clients du google webmasters tool il y'a quelques années j'étais surpris par leur étonnement sur le volume d'informations et la clarté de Google au sujet de son activité sur le site. Cependant entre cette période et aujourd'hui, mes chers clients n'ont jamais été à l'aise avec l'outil google pour les webmasters au même titre qu'ils n'ont jamais réellement été à l'aise avec Google analytics.

Aujourd'hui le google webmasters tool fait peau neuve. L'objectif de Google est de permettre aux webmasters d'avoir en un coup d'oeil un état des lieux sur la "santé" de leur site. Google a amélioré l'interface du webmasters tool en regroupant les informations clés sur un site. A titre d'exemple google pourra tout de suite vous remonter les informations suivantes:

  • "Des problèmes importants ont été détecté sur votre site"
  • "Nous avons remarqué que vous avez malencontreusement bloqués des pages importantes de votre site"
  • "Le domaine favori de votre site a été modifié"
  • "Le nombre d'URL détectées par Googlebot sur votre site  est extrêmement élevé"
  • etc.

Ces informations utiles permettront d'intervenir assez rapidement en cas de problèmes ou de "staffer" les équipes. Selon Google ces modifications s'appliquent aux webmasters qui gèrent moins de 100 sites sur leur interface. A noter que comme à son habitude google ne mettra pas automatiquement à jour son interface en cas de corrections des problèmes mentionnés.

Voir le détail des changements du google webmasters tool en cliquant sur ce lien http://googlewebmastercentral.blogspot.com/2011/09/work-smarter-not-harder-with-site.html

Articles A lire aussi:

http://www.francknlemba.com/2010/10/mise-a-jour-du-google-webmaster-tool/

http://www.francknlemba.com/2009/04/6-elements-de-base-de-la-gestion-du-webmaster-tool/

http://www.francknlemba.com/2010/08/rendre-le-site-accessible-a-google/

No responses yet

Comment Google améliore son algorithme?

août 31 2011 Published by Franck NLEMBA under Crawl

Le 25 Août dernier Google a posté une vidéo sur la manière dont les équipes de recherche optimisent l'infrastructure de recherche (l'algorithme) de Google. A côté des stars habituelles que sont Matt Cutts ou Amit Singhal, on peut découvrir ceux de jeunes ingénieurs (Rajan Patel, Scott Huffman, Mark Paskin,...) qui optimisent la recherche Google. Comment Google fait donc pour proposer à l'internaute autant d'évolutions et d'inoovations sur la recherche? Rien de plus original qu'un ensemble de branstorming pour créer des idées originals "creative idea", de tests "live experiement", des mise en ligne et des optimisations. Quelques chiffres en 2010, google a lancé plus de 20000 expériences sur la base des éléments que j'ai cités plus haut. En résumé Google fait tout pour apporter des changements qui vont apportés de la valeur à l'internaute. Enjoy this vidéo :)

No responses yet

Google et l'utilisation des données liées au comportement de l'internaute

août 23 2011 Published by Franck NLEMBA under Crawl

Lors de mon dernier article sur l'algorithme google panda, un commentaire a attiré mon attention sur le fait que ce n'était pas sûr que google intègre les données relatives à l'engagement des internautes pour classer les résultats.

Bien que celà semble être une évidence pour moi au regard  du fait que la recherche personnalisée existe depuis longtemps maintenant et que chaque jour j'en fais l'expérience car je suis toujours loggé à mon compte google lorsque j'effectue mes recherches, je me suis dit qu'il fallait que je trouve d'autres éléments pour être crédible.

Et quoi de mieux que cet article de Bill Slawski sur l'utilisation des informations liées au comportement des internautes sur les pages Web pour améliorer le classement des résultats de recherche. Bill précise en introduction que le brevet sur lequel il s'est appuyé pour rediger son article est sorti à la même période que google Panda et justement les informations qui y sont décrites vont dans le même sens que les éléments évalués par Google pour mesurer la qualité d'un site.

J'ai pris le temps de lire cet article et les 84 commentaires qui l'accompagnent et je suis ravi de vous communiquer les informations suivantes:

Intégration des données liées à l'engagement des internautes

Ce que j'appelle Engagement de l'internaute résume l'ensemble des critères de mesure de l'intérêt des internautes pour un site et son contenu. Ainsi Google va ajouter à son algorithme traditionnel certaines informations de ce type:

  • Nombre total de visites sur une page
  • Nombre total de visiteurs sur une page
  • Nombre total des visites sur une page pendant une période donnée
  • Nombre de visiteurs d'une page sur une plage de temps donnée
  • Evolution des visites sur une page sur une période de temps (%)
  • Evolution des visiteurs sur une page sur une période de temps donnée (%)
  • Tous les autres critères qui permettent d'évaluer l'engagement des internautes

Bien entendu ces critères vont être utilisés soit en complément soit en remplacement de l'algorithme existant selon le type de recherche

Google intégre le comportement de l'internaute dans son algo

Comment Google va identifier l'internaute?

Afin d'attribuer à un internaute un comportement donné google va se baser sur:

  • l'adresse IP de ce dernier
  • L'hébergeur
  • les cookies, etc.

En plus de ces éléments Bill a rajouté un complément d'informations dans les commentaires en précisant que google dispose de nombreux leviers pour collecter des informations sur l'internaute. Ces informations sont collectées sur:

  • La barre de recherches Google
  • les recherches effectuées par les internautes connectés à un compte Google
  • les pages sur lesquels l'internaute utilise le bouton+1
  • les fichiers logs Google
  • les alertes Google et autres abonnements (google reader)
  • les informations Google+
  • etc...

Conclusion

Avec Panda, il semble bien que google insiste sur la qualité des résultats. L'intégration des données liées au comportement de l'internaute en complément ou en remplacement de l'algorithme existant me semble approprié, car au final même si un site arrive à manipuler l'algorithme google par une augmentation des occurrences de mots clés sur les pages et par les liens entrants, au final c'est l'attitude de l'internaute sur la page qui reste le meilleur arbitre: soit la page est de bonne qualité et il va partager le contenu à ces amis ce qui contribuera à améliorer le profil de liens entrants du site concerné, soit il va revenir directement sur google et selon le cas ceci peut être traduit comme une insatisfaction entraînant donc une sanction (perte des positions)

No responses yet

Algorithme Google Panda

août 14 2011 Published by Franck NLEMBA under Crawl

Suite à mon dernier article sur les astuces de référencement naturel pour préparer Google Panda, l'une des requêtes les plus fortes de mes statistiques est "algorithme Google Panda". A la base je ne voulais pas me risquer à proposer des données sur le fonctionnement de l'algorithme Google Panda mais l'intérêt des recherches google m'a amené à faire quelques recherches sur le sujet.

Lorsqu'on lit les informations proposées par Google au sujet du fonctionnement de Google Panda, on s'aperçoit qu'avec Google Panda, google a développé un modèle de classement des pages qui est basé certes sur leur pertinence (mots clés) et sur leur notoriété (liens entrants) mais aussi sur la crédibilité du site, le niveau d'expertise de l'auteur du contenu, l'originalité de l'article, la profondeur des thèmes abordés,etc...

Eléments de l'algorithme Google panda

L'algorithme Google panda serait donc basé sur un modèle de classement des pages de plus de 5 millions de paramètres différents, basé sur des prédictions du comportement de l'internaute face aux résultats de recherche. Ainsi pour avoir une vision macro de l'algorithme Panda il faut considérer les 3 éléments suivants:

  • La recherche de l'internaute qui correspond à la requête utilisé par l'internaute, les mots clés dans la requête,...
  • Les informations sur l'internaute: adresse IP, cookies, langue utilisée, zone géographique,...
  • Les informations sur les documents proposés sur les pages de résultats: l'url, mots clés dans le document, title, ancre des liens qui pointent vers le document, ...

Il faut noter que Panda est basé sur un modèle de prédiction du comportement de l'internaute face à un type de résultats. Ceci revient donc à dire que ces différents paramètres de l'algorithme sont très souvent combinés. Par exemple Google va croiser le comportement de l'internaute aux requêtes qu'il a effectué à un moment précis de la journée ou encore le modèle va analyser les dernières requêtes effectuées par un internaute, identifier le type de résultats sur lequel il clique mais aussi ceux sur lesquels il ne clique pas; le nombre de fois où il y'a une correspondance entre la requête et les mots clés dans le document...

En plus de ces informations sur l'internaute, sa requête et la page de destination, des spécialistes comme Bill Slawski ont également indiqué que l'algorithme Google Panda serait enrichi d'autres systèmes de classement des documents à grande échelle d'une part mais aussi de nombreuses évolutions de l'infrastructure google pour améliorer la qualité des publicités adwords, lutter contre les spams, améliorer le classement des résultats...; ce qui a pour avantage de faciliter les mises à jour rapide et la propagation de Google panda à très grande échelle.

Conclusion

A mon avis on ne saurait parler de l'algorithme Panda car selon toute vraisemblance il s'agirait d'une optimisation de l'infrastructure google qui facilite la combinaison de plusieurs algorithmes pour classer les résultats à basés sur des millions de paramètres. Ainsi Comme l'ont indiqué Matt Cutts et Amit Singhal Google panda est d'abord un modèle qui ne s'applique pas à toutes les requêtes mais seulement à un échantillon d'entre elles (6 à 9% d'entre elles).

Le modèle va donc classer les pages sur la base de l'analyse de leurs caractéristiques et va se servir du comportement de l'internaute pour évaluer la pertinence de l'ensemble du système. C'est donc comme si Google choisit 10 requêtes, identifie dans ses bases de données les pages qui contiennent des informations sur ces requêtes, les analyses sur la base des critères de qualité définis dans le modèle, les classe et propose à l'internaute les nouveaux résultats classés selon ces règles de qualité: si l'internaute passe plus de temps sur la page ou le site réduisant au passage son taux de rebond, le recommande en faisant un lien le site,...alors l'algorithme aura été efficace.

Tout ceci revient donc à penser à raison, qu'aujourd'hui certains sites ne soient pas touchés par Panda soit parce que leur contenu est de "qualité" soit parce que leur contenu n'est pas encore traité par Google Panda. Par ailleurs avec Panda Google veut améliorer la qualité des résultats pour l'internaute. Par conséquent à défaut de connaitre tous les paramètres de l'algorithme Google il fait bien analyser toutes les informations qui traduisent le comportement de vos internautes sur le site:

  • Taux de rebond
  • Taux de sortie de vos pages
  • Temps passé sur vos pages
  • Taux de clics sur vos résultats de recherche
  • Correspondance entre les requêtes des internautes et le contenu de vos pages,...

5 responses so far

Evaluer la qualité du code source pour Google

août 09 2011 Published by Franck NLEMBA under Crawl

Le 18 Juillet dernier, Google a remis à l'ordre du jour un vieux débat sur la qualité du code source. En effet, depuis Google Instant et son impact sur les taux de clics, associé à l'impact de Google Panda sur les positions de certains sites, il ne se passe plus un mois sans que les équipes Google ne proposent aux webmasters des conseils pour améliorer la qualité de leur site.

En ce qui concerne la qualité du code source et notamment de la validation du HTML et CSS, Google a évoqué des raisons qui motivent ces conseils aux webmasters:

  • Google tient compte de la qualité du code source en donnant un score à ses pages
  • Les techniques de codages des sites web évoluent ce qui peut entrainer quelques erreurs
  • De nombreux standards de validation existent d'où la nécessité de préciser quelques points

Comment valider la qualité du code source de son site?

Google recommande d'utiliser le validateur de W3C pour évaluer et valider le code HTML & les CSS. A noter que Google a indiqué que le fait d'avoir un excellent score de qualité n'est pas une garantie dans l'amélioration du crawl ou de l'indexation de votre site. Toutefois à mon avis il est nécessaire d'en tenir compte car la plupart des sanctions concerne désormais la qualité des sites.

A Lire

Comment bien gérer les sitemaps pour faciliter le travail des moteurs de recherche

Optimiser le temps de chargement des pages

Tous les articles sur le crawl de Google

One response so far

La gestion des sitemaps et l'indexation des pages

jan 24 2011 Published by Franck NLEMBA under Crawl,Google image

Matt Cutts a donné le ton sur cette année 2011 et j'ai juste envie de dire qu'il était temps car les résultats sur Google du point de vue leur qualité sont très Optimisables.

De nombreux sites en France occupent de très bonnes positions sur Google France par exemple, et la qualité du contenu proposé est très médiocre. "Ce sont toujours les mêmes qui occupent les premières positions" sur la mode et le prêt à porter, les requêtes liés à l'enfant, le high tech...les petits sites ont de moins en moins de chance de se positionner sur la première page faute de moyen et parfois avec une qualité de contenu meilleure...on pourrait dire pleins de choses sur la qualité des résultats Google mais je vous laisse lire l'article de Matt Cutts

Revenons sur le sujet : l'Optimisation des sitemaps. Première précision les sitemaps dont je parle ici sont bien les XML sitemaps donc le rôle est d'aider Google à découvrir l'ensemble des contenus de vos pages. Les détails sur leur création se trouvent dans le sitemap protocol et leur monitoring se fait à partir du Google webmasters Tool.

types de sitemap dans le google webmasters tool

Le sitemap n'influence pas les positions

Si vous êtes expert du référencement naturel évidemment la question de l'utilité des sitemaps ne se pose pas (par exemple pour un site de moins de 50 pages un sitemap XML à mon avis ne sert pas à grand chose dans la mesure où le contenu est statique) à moins que vous ne les utilisiez pas pour une raison pour une autre.

L'une des erreurs que les clients font souvent c'est de considérer que le sitemap sert à améliorer les positions. La réponse est évidement non car ce qu'il faut comprendre c'est qu'avant d'être positionné sur Google votre site doit être accessible en d'autres termes les robots Google doivent pouvoir explorer l'ensemble des pages du site.

Evidemment si le site a entre 10 et 50 pages de contenu utile à l'internaute il y'a des chances que Google l'explore totalement. Vous pouvez par exemple vous en assurer avec la commande [site:www.monsite.com].

Le fait d'avoir un sitemap ou pas n'a donc aucune influence sur vos positions. Par contre si toutes les pages du site sont indexées ceci peut aider les pages du site à vous apporter plus de visites sur différents types de requêtes.

A quoi sert le taux d'indexation des sitemaps

Ce critère est très important pour deux raisons:

  • Ils vous donnent la proportion de pages de votre site qui sont dans l'index principal de Google
  • Ils vous donne une idée de la qualité de vos pages car si Google les indexe totalement ceci revient à dire que votre contenu remplit certains critères de qualité

On considère en général qu'un bon taux d'indexation se situe à 40%. Si vous avez un taux d'indexation inférieur à 40% il faut essayer d'identifier les pages qui font moins de visites chaque mois et celles qui reçoivent moins de liens la réponse est peut être là!

Comment organiser mes sitemaps?

Rob de Distilled a récemment publié un excellent article sur la gestion des xml sitemaps. La majorité des techniques qui y sont expliquées peuvent être appliquées à un moment ou à un autre selon le type de site. Ce qu'il faut retenir c'est que le fait d'éclater vos urls dans différents fichiers selon leurs types facilitera l'analyse.

sitemaps

Pour Finir Google continue d'améliorer la manière dont il découvre les contenus sur Internet, il est donc important lorsque l'on a des vidéos sur un site de penser à faire un sitemap pour héberger les urls de ces vidéos ou encore un sitemap pour les images du site

No responses yet

Older posts »