Google

Robots.txt: Utilisation du robots.txt pour plusieurs domaines

fév 26 2009 Published by Franck NLEMBA under Crawl

Comme je l'ai déja dit sur SEO business le fichier robots.TXT est un petit doc texte qui permet de donner des recommandations à google et aux autres robots yahoo slurp et MSNBot particulièrement sur les pages du site à suivre et à les contenus à ne pas indexer.

Cette semaine pour un de mes clients j'ai été obligé de résoudre une problématique plus complexe. Une des versions du site (version test) a été indexé par google ce qui me pose un sérieux problème de duplication du contenu (duplicate content).

Face à cette situation en général 2 opportunités se pose en fait on a plusieurs solutions.

Lorsque l'on est dans le même domaine par par exemple www.monsite.com on peut soit faire des redirection 301 des pages d'erreurs vers les bonnes pages, soit bloquer dans le fichier robots.txt certaines url

Par exemple bloquer toutes les urls qui ont un (?)

[www.exemple.com/advanced_search_result.php?keywords=seo

User-agent: *
Disallow: /*?

Soit encore faire une demande de désindexation dans le webmaster tool.

Mais cette fois ci le problème est différent plus que ce que je souhaitais désindexer 

c'est plutôt:

http://fr.monsite.com

L'objectif est donc de bloquer toutes les Urls qui commencent par (fr)

La solution qui me semble la plus appropriée consiste simplement à Créer 2 fichiers robots.txt 

un pour chaque site.

Pour http://fr.monsite.com

je crée un fichier robots.txt avec deux lignes de codes qui interdissent l'indexation de toutes les pages du site

User-agent: *

Disallow: /

Un mois plus tard si le problème persiste je fais une demande de désindexation du domaine sur le webmaster tool.

La question que je me pose aujourd'hui est l'introduction ou pas de la balise 

<META NAME="ROBOTS" CONTENT="NOARCHIVE">

Afin d'empêcher à tous les robots de conserver des copies des pages?
  

No responses yet