Google

Algorithme Google Panda

août 14 2011

Suite à mon dernier article sur les astuces de référencement naturel pour préparer Google Panda, l'une des requêtes les plus fortes de mes statistiques est "algorithme Google Panda". A la base je ne voulais pas me risquer à proposer des données sur le fonctionnement de l'algorithme Google Panda mais l'intérêt des recherches google m'a amené à faire quelques recherches sur le sujet.

Lorsqu'on lit les informations proposées par Google au sujet du fonctionnement de Google Panda, on s'aperçoit qu'avec Google Panda, google a développé un modèle de classement des pages qui est basé certes sur leur pertinence (mots clés) et sur leur notoriété (liens entrants) mais aussi sur la crédibilité du site, le niveau d'expertise de l'auteur du contenu, l'originalité de l'article, la profondeur des thèmes abordés,etc...

Eléments de l'algorithme Google panda

L'algorithme Google panda serait donc basé sur un modèle de classement des pages de plus de 5 millions de paramètres différents, basé sur des prédictions du comportement de l'internaute face aux résultats de recherche. Ainsi pour avoir une vision macro de l'algorithme Panda il faut considérer les 3 éléments suivants:

  • La recherche de l'internaute qui correspond à la requête utilisé par l'internaute, les mots clés dans la requête,...
  • Les informations sur l'internaute: adresse IP, cookies, langue utilisée, zone géographique,...
  • Les informations sur les documents proposés sur les pages de résultats: l'url, mots clés dans le document, title, ancre des liens qui pointent vers le document, ...

Il faut noter que Panda est basé sur un modèle de prédiction du comportement de l'internaute face à un type de résultats. Ceci revient donc à dire que ces différents paramètres de l'algorithme sont très souvent combinés. Par exemple Google va croiser le comportement de l'internaute aux requêtes qu'il a effectué à un moment précis de la journée ou encore le modèle va analyser les dernières requêtes effectuées par un internaute, identifier le type de résultats sur lequel il clique mais aussi ceux sur lesquels il ne clique pas; le nombre de fois où il y'a une correspondance entre la requête et les mots clés dans le document...

En plus de ces informations sur l'internaute, sa requête et la page de destination, des spécialistes comme Bill Slawski ont également indiqué que l'algorithme Google Panda serait enrichi d'autres systèmes de classement des documents à grande échelle d'une part mais aussi de nombreuses évolutions de l'infrastructure google pour améliorer la qualité des publicités adwords, lutter contre les spams, améliorer le classement des résultats...; ce qui a pour avantage de faciliter les mises à jour rapide et la propagation de Google panda à très grande échelle.

Conclusion

A mon avis on ne saurait parler de l'algorithme Panda car selon toute vraisemblance il s'agirait d'une optimisation de l'infrastructure google qui facilite la combinaison de plusieurs algorithmes pour classer les résultats à basés sur des millions de paramètres. Ainsi Comme l'ont indiqué Matt Cutts et Amit Singhal Google panda est d'abord un modèle qui ne s'applique pas à toutes les requêtes mais seulement à un échantillon d'entre elles (6 à 9% d'entre elles).

Le modèle va donc classer les pages sur la base de l'analyse de leurs caractéristiques et va se servir du comportement de l'internaute pour évaluer la pertinence de l'ensemble du système. C'est donc comme si Google choisit 10 requêtes, identifie dans ses bases de données les pages qui contiennent des informations sur ces requêtes, les analyses sur la base des critères de qualité définis dans le modèle, les classe et propose à l'internaute les nouveaux résultats classés selon ces règles de qualité: si l'internaute passe plus de temps sur la page ou le site réduisant au passage son taux de rebond, le recommande en faisant un lien le site,...alors l'algorithme aura été efficace.

Tout ceci revient donc à penser à raison, qu'aujourd'hui certains sites ne soient pas touchés par Panda soit parce que leur contenu est de "qualité" soit parce que leur contenu n'est pas encore traité par Google Panda. Par ailleurs avec Panda Google veut améliorer la qualité des résultats pour l'internaute. Par conséquent à défaut de connaitre tous les paramètres de l'algorithme Google il fait bien analyser toutes les informations qui traduisent le comportement de vos internautes sur le site:

  • Taux de rebond
  • Taux de sortie de vos pages
  • Temps passé sur vos pages
  • Taux de clics sur vos résultats de recherche
  • Correspondance entre les requêtes des internautes et le contenu de vos pages,...

0saves
If you enjoyed this post, please consider leaving a comment or subscribing to the RSS feed to have future articles delivered to your feed reader.

5 responses so far

  • A long terme je me demande ce que va devenir mon blog !?

    Par contre on peut se réjouir que Google récompense les sites de meilleures qualité contrairement aux années précédentes ou certains sites bien référencés ne proposait pas grand chose ...

  • L'Etendard dit :

    A mon avis sur les sites mineurs tels que le mien, l'arrivée de Panda n'aura guère d'impact.

  • Luckfactor dit :

    Si je comprend bien vous pensez que Google mesure le comportement des internautes dans les résultats de recherche comme critère pour affiner le positionnement des sites, quels éléments vous permettent d'affirmer cela ?

    Cela poserai un problème concernant les nouveaux sites: le CTR est grandement affecté par la notoriété d'une marque...

    Si ce critère était effectivement mis en place, cela compliquerai les choses pour les nouvelles marques, aussi, je suis réservé la dessus: ce ne serait pas un critère très pertinent pour le moteur.

    De plus, comment le moteur pourrait il prendre en compte ...
    Taux de sortie de vos pages
    Temps passé sur vos pages
    Taux de clics sur vos résultats de recherche"le taux de rebond",
    ... Si le site n'est pas tracké avec GA?

  • Franck NLEMBA dit :

    Luckfactor

    Dans la description donnée par Amit Singhal et Matt cutts il y'a environ 10 jours sur Google PANDA,
    http://www.youtube.com/watch?v=pt6qj5-5kVA&feature=player_detailpage#t=940s

    il en ressort les points suivants:

    Depuis 2003 Google dispose d'une infrastructure pour déterminer le SPAM
    Google Panda n'est pas un algorithme, mais une combinaison de plusieurs algorithmes ce qui permet à Google de s'inspirer des éléments d'analyse de qualité du contenu sur Adwords par exemple (lutte contre la fraude aux clics)
    Google Panda vise à sanctionner les sites qui ne proposent pas un bon contenu à l'internaute

    De ce fait c'est le comportement de l'internaute qui est au coeur même de Panda. Le système va analyser des millions de paramètres liés à la requête faite par un internaute, la page de destination sur cette requête et enfin de comportement de l'internaute sur cette page.

    J'en déduit donc que Google ne peut pas anticiper d'avance le comportement de tous les internautes ( ce qui peut expliquer que Panda s'attaque pour l'instant à un nombre limité de requêtes) il va procéder de la manière suivante:

    Identifier des sites dont le contenu est irréprochable et qui ont une grande notoriété (cas d'Amazon) on va l'appeler échantillon de référence
    Comparer le contenu des pages qui se positionnent sur certaines requêtes (les 10% concernées par Panda) par rapport à l'échantillon de référence
    Anticiper statistiquement le comportement de l'internaute

    Si tu comprends çà, tu comprendras donc aisément que selon qu'on clique ou pas sur les résultats "Post Panda" selon qu'on passe plus de temps ou pas sur les résultats "post panda", selon qu'on est plus enclin à partager ce contenu sur les réseau sociaux sur les résultats post panda,...alors la mise à jour sera jugé pertinente par Google. Le comportement de l'internaute fasse aux résultats après Panda sert donc de "juge" sur la pertinence ou non de la mise à jour.

    En ce qui concerne le CTR çà dépend du contexte de la requête; je pense effectivement que la marque y joue un rôle important mais la base de l'influence du CTR est la méta description (encore un élément du contenu) que l'on peut associer ou pas à la position occupée sur les pages de résultats

    Enfin, Google dispose de plusieurs éléments pour avoir des informations sur l'internaute, je pense même qu'il peut se passer de Google Analytics car il faut bien savoir qu'ici Google ne souhaite pas avoir l'ensemble de la population pour identifier les comportements dominants mais un vaste échantillon serait déjà suffisant et cet échantillon il va le récupérer sur Google chrome, sur nos cookies, sur Gmail,...

  • [...] de mon dernier article sur l’algorithme google panda, un commentaire a attiré mon attention sur le fait que ce n’était pas sûr que google [...]

Laisser un commentaire