Google

Archive for the 'Crawl' category

Mise à jour de Google Panda: Panda 2.5

oct 01 2011 Published by Franck NLEMBA under Crawl

Depuis hier, le search engine Land a relayé une information selon laquelle une nouvelle mise à jour de l'algorithme Panda a été lancée par Google. Faute d'un manque de communication officielle, pour l'instant les spéculations vont bon train. Pour information rappelons que l'algorithme Google panda vise à améliorer la qualité des résultats de recherche en retrogradant la position de certains sites internet au profit d'autres jugés plus pertinents.

Le processus intial intègre donc la notation des sites web par un panel d'utilisateurs et le déploiement algorithmique mais progressif du comportement de ce panel sur un échantillon de requêtes afin de classer les résultats ou de les re-classer. Il s'agirait donc de la mise à jour google panda 2.5. Si vous avez déjà été victime de Google panda ou si vous souhaitez l'éviter je vous propose de lire les articles ci-dessous. Bon courage

Ressources Utiles sur la mise à jour de Google Panda


Essaie de description de l'algorithme Google Panda

Conseils pour mieux préparer l'arrivée de Google panda en France

Comment éviter google panda

Comment google va se servir des données des internautes pour modifier son algorithme

Déploiement officiel de Google panda en France

algorithme panda

No responses yet

Changements sur l'interface du google webmasters tools

sept 30 2011 Published by Franck NLEMBA under Crawl

Mise à jour du 17/08/2012

Quelques modifications récentes sur l'interface du Google webmaster tools ont attiré mon attention et j'ai jugé utile d'en parler car je ne suis pas sûr que tous les experts qui tombent sur cet articles sont au courant de ces nouvelles possibilités:

#1- Téléchargement des données du Google webmasters tools dans Google Doc

Désormais au moment de l'exportation de vos données vous aurez le choix entre télécharger les données en local (CSV) ou directement sur Google Document. L'avantage avec Google Doc c'est que vous pourrez mettre à jour le tableau et le partager plus facilement avec le client.

2# Télécharger les derniers Liens entrants

C'est bien connu, pour être bien référencé il faut avoir des liens entrants en qualité et en quantité. Le Google webmasters Tools donnait déjà la possibilité de connaitre les liens qui pointent vers votre site Web d'une part mais aussi les pages qui reçoivent le plus de liens entrants. Tout récemment, Google a donné la possibilité de télécharger les derniers liens vers votre site

Ceci est utile a plus d'un titre dans la mesure où vous aurez une idée des partenaires les plus efficaces d'une part mais aussi des sites qui parlent de vous naturellement pour des opportunités de partenariats ou d'opérations marketing.

Lorsque j'ai commencé à parler à mes clients du google webmasters tool il y'a quelques années j'étais surpris par leur étonnement sur le volume d'informations et la clarté de Google au sujet de son activité sur le site. Cependant entre cette période et aujourd'hui, mes chers clients n'ont jamais été à l'aise avec l'outil google pour les webmasters au même titre qu'ils n'ont jamais réellement été à l'aise avec Google analytics.

Aujourd'hui le google webmasters tool fait peau neuve. L'objectif de Google est de permettre aux webmasters d'avoir en un coup d'oeil un état des lieux sur la "santé" de leur site. Google a amélioré l'interface du webmasters tool en regroupant les informations clés sur un site. A titre d'exemple google pourra tout de suite vous remonter les informations suivantes:

  • "Des problèmes importants ont été détecté sur votre site"
  • "Nous avons remarqué que vous avez malencontreusement bloqués des pages importantes de votre site"
  • "Le domaine favori de votre site a été modifié"
  • "Le nombre d'URL détectées par Googlebot sur votre site  est extrêmement élevé"
  • etc.

Ces informations utiles permettront d'intervenir assez rapidement en cas de problèmes ou de "staffer" les équipes. Selon Google ces modifications s'appliquent aux webmasters qui gèrent moins de 100 sites sur leur interface. A noter que comme à son habitude google ne mettra pas automatiquement à jour son interface en cas de corrections des problèmes mentionnés.

Voir le détail des changements du google webmasters tool en cliquant sur ce lien http://googlewebmastercentral.blogspot.com/2011/09/work-smarter-not-harder-with-site.html

Articles A lire aussi:

http://www.francknlemba.com/2010/10/mise-a-jour-du-google-webmaster-tool/

http://www.francknlemba.com/2009/04/6-elements-de-base-de-la-gestion-du-webmaster-tool/

http://www.francknlemba.com/2010/08/rendre-le-site-accessible-a-google/

No responses yet

Comment Google améliore son algorithme?

août 31 2011 Published by Franck NLEMBA under Crawl

Le 25 Août dernier Google a posté une vidéo sur la manière dont les équipes de recherche optimisent l'infrastructure de recherche (l'algorithme) de Google. A côté des stars habituelles que sont Matt Cutts ou Amit Singhal, on peut découvrir ceux de jeunes ingénieurs (Rajan Patel, Scott Huffman, Mark Paskin,...) qui optimisent la recherche Google. Comment Google fait donc pour proposer à l'internaute autant d'évolutions et d'inoovations sur la recherche? Rien de plus original qu'un ensemble de branstorming pour créer des idées originals "creative idea", de tests "live experiement", des mise en ligne et des optimisations. Quelques chiffres en 2010, google a lancé plus de 20000 expériences sur la base des éléments que j'ai cités plus haut. En résumé Google fait tout pour apporter des changements qui vont apportés de la valeur à l'internaute. Enjoy this vidéo :)

No responses yet

Google et l'utilisation des données liées au comportement de l'internaute

août 23 2011 Published by Franck NLEMBA under Crawl

Lors de mon dernier article sur l'algorithme google panda, un commentaire a attiré mon attention sur le fait que ce n'était pas sûr que google intègre les données relatives à l'engagement des internautes pour classer les résultats.

Bien que celà semble être une évidence pour moi au regard  du fait que la recherche personnalisée existe depuis longtemps maintenant et que chaque jour j'en fais l'expérience car je suis toujours loggé à mon compte google lorsque j'effectue mes recherches, je me suis dit qu'il fallait que je trouve d'autres éléments pour être crédible.

Et quoi de mieux que cet article de Bill Slawski sur l'utilisation des informations liées au comportement des internautes sur les pages Web pour améliorer le classement des résultats de recherche. Bill précise en introduction que le brevet sur lequel il s'est appuyé pour rediger son article est sorti à la même période que google Panda et justement les informations qui y sont décrites vont dans le même sens que les éléments évalués par Google pour mesurer la qualité d'un site.

J'ai pris le temps de lire cet article et les 84 commentaires qui l'accompagnent et je suis ravi de vous communiquer les informations suivantes:

Intégration des données liées à l'engagement des internautes

Ce que j'appelle Engagement de l'internaute résume l'ensemble des critères de mesure de l'intérêt des internautes pour un site et son contenu. Ainsi Google va ajouter à son algorithme traditionnel certaines informations de ce type:

  • Nombre total de visites sur une page
  • Nombre total de visiteurs sur une page
  • Nombre total des visites sur une page pendant une période donnée
  • Nombre de visiteurs d'une page sur une plage de temps donnée
  • Evolution des visites sur une page sur une période de temps (%)
  • Evolution des visiteurs sur une page sur une période de temps donnée (%)
  • Tous les autres critères qui permettent d'évaluer l'engagement des internautes

Bien entendu ces critères vont être utilisés soit en complément soit en remplacement de l'algorithme existant selon le type de recherche

Google intégre le comportement de l'internaute dans son algo

Comment Google va identifier l'internaute?

Afin d'attribuer à un internaute un comportement donné google va se baser sur:

  • l'adresse IP de ce dernier
  • L'hébergeur
  • les cookies, etc.

En plus de ces éléments Bill a rajouté un complément d'informations dans les commentaires en précisant que google dispose de nombreux leviers pour collecter des informations sur l'internaute. Ces informations sont collectées sur:

  • La barre de recherches Google
  • les recherches effectuées par les internautes connectés à un compte Google
  • les pages sur lesquels l'internaute utilise le bouton+1
  • les fichiers logs Google
  • les alertes Google et autres abonnements (google reader)
  • les informations Google+
  • etc...

Conclusion

Avec Panda, il semble bien que google insiste sur la qualité des résultats. L'intégration des données liées au comportement de l'internaute en complément ou en remplacement de l'algorithme existant me semble approprié, car au final même si un site arrive à manipuler l'algorithme google par une augmentation des occurrences de mots clés sur les pages et par les liens entrants, au final c'est l'attitude de l'internaute sur la page qui reste le meilleur arbitre: soit la page est de bonne qualité et il va partager le contenu à ces amis ce qui contribuera à améliorer le profil de liens entrants du site concerné, soit il va revenir directement sur google et selon le cas ceci peut être traduit comme une insatisfaction entraînant donc une sanction (perte des positions)

No responses yet

Algorithme Google Panda

août 14 2011 Published by Franck NLEMBA under Crawl

Suite à mon dernier article sur les astuces de référencement naturel pour préparer Google Panda, l'une des requêtes les plus fortes de mes statistiques est "algorithme Google Panda". A la base je ne voulais pas me risquer à proposer des données sur le fonctionnement de l'algorithme Google Panda mais l'intérêt des recherches google m'a amené à faire quelques recherches sur le sujet.

Lorsqu'on lit les informations proposées par Google au sujet du fonctionnement de Google Panda, on s'aperçoit qu'avec Google Panda, google a développé un modèle de classement des pages qui est basé certes sur leur pertinence (mots clés) et sur leur notoriété (liens entrants) mais aussi sur la crédibilité du site, le niveau d'expertise de l'auteur du contenu, l'originalité de l'article, la profondeur des thèmes abordés,etc...

Eléments de l'algorithme Google panda

L'algorithme Google panda serait donc basé sur un modèle de classement des pages de plus de 5 millions de paramètres différents, basé sur des prédictions du comportement de l'internaute face aux résultats de recherche. Ainsi pour avoir une vision macro de l'algorithme Panda il faut considérer les 3 éléments suivants:

  • La recherche de l'internaute qui correspond à la requête utilisé par l'internaute, les mots clés dans la requête,...
  • Les informations sur l'internaute: adresse IP, cookies, langue utilisée, zone géographique,...
  • Les informations sur les documents proposés sur les pages de résultats: l'url, mots clés dans le document, title, ancre des liens qui pointent vers le document, ...

Il faut noter que Panda est basé sur un modèle de prédiction du comportement de l'internaute face à un type de résultats. Ceci revient donc à dire que ces différents paramètres de l'algorithme sont très souvent combinés. Par exemple Google va croiser le comportement de l'internaute aux requêtes qu'il a effectué à un moment précis de la journée ou encore le modèle va analyser les dernières requêtes effectuées par un internaute, identifier le type de résultats sur lequel il clique mais aussi ceux sur lesquels il ne clique pas; le nombre de fois où il y'a une correspondance entre la requête et les mots clés dans le document...

En plus de ces informations sur l'internaute, sa requête et la page de destination, des spécialistes comme Bill Slawski ont également indiqué que l'algorithme Google Panda serait enrichi d'autres systèmes de classement des documents à grande échelle d'une part mais aussi de nombreuses évolutions de l'infrastructure google pour améliorer la qualité des publicités adwords, lutter contre les spams, améliorer le classement des résultats...; ce qui a pour avantage de faciliter les mises à jour rapide et la propagation de Google panda à très grande échelle.

Conclusion

A mon avis on ne saurait parler de l'algorithme Panda car selon toute vraisemblance il s'agirait d'une optimisation de l'infrastructure google qui facilite la combinaison de plusieurs algorithmes pour classer les résultats à basés sur des millions de paramètres. Ainsi Comme l'ont indiqué Matt Cutts et Amit Singhal Google panda est d'abord un modèle qui ne s'applique pas à toutes les requêtes mais seulement à un échantillon d'entre elles (6 à 9% d'entre elles).

Le modèle va donc classer les pages sur la base de l'analyse de leurs caractéristiques et va se servir du comportement de l'internaute pour évaluer la pertinence de l'ensemble du système. C'est donc comme si Google choisit 10 requêtes, identifie dans ses bases de données les pages qui contiennent des informations sur ces requêtes, les analyses sur la base des critères de qualité définis dans le modèle, les classe et propose à l'internaute les nouveaux résultats classés selon ces règles de qualité: si l'internaute passe plus de temps sur la page ou le site réduisant au passage son taux de rebond, le recommande en faisant un lien le site,...alors l'algorithme aura été efficace.

Tout ceci revient donc à penser à raison, qu'aujourd'hui certains sites ne soient pas touchés par Panda soit parce que leur contenu est de "qualité" soit parce que leur contenu n'est pas encore traité par Google Panda. Par ailleurs avec Panda Google veut améliorer la qualité des résultats pour l'internaute. Par conséquent à défaut de connaitre tous les paramètres de l'algorithme Google il fait bien analyser toutes les informations qui traduisent le comportement de vos internautes sur le site:

  • Taux de rebond
  • Taux de sortie de vos pages
  • Temps passé sur vos pages
  • Taux de clics sur vos résultats de recherche
  • Correspondance entre les requêtes des internautes et le contenu de vos pages,...

5 responses so far

Older posts »