- · Niveau : DÉBUTANT
- · Compatibilité : Tous les navigateurs
Le fichier robots.txt : permet d’indiquer aux moteurs de recherche les fichiers ou répertoires (dossiers) à indexer ou à ne pas indexer.
(Default access policy) Vous devez mettre le fichier robots.txt sur le serveur dans le répertoire principal (racine). Avant même d’indexer votre site, la grande majorité des moteurs de recherche liront ce petit fichier. Vous pouvez spécifier des directives pour un moteur de recherche en particulier ou pour tous les moteurs en utilisant l’astérisque.
Format du fichier:
Le fichier contient une ou plusieurs lignes « record » séparées par une ou plusieurs fins de ligne (CR,CR/NL, ou NL).
Comme ceci :"<VARIABLE>:<ESPACEOPTIONNEL><VALLEUR><ESPACEOPTIONNEL>".
Attention, les minuscules et majuscules sont prises en compte.
Il y a trois variables principales :
- User-agent : La valeur de cette variable contient le nom du moteur à qui est destiné le fichier robots.txt Vous pouvez indiquer plusieurs moteurs. Il faut absolument que cette variable soit présente. Il est recommandé d’utiliser des minuscules et de ne pas mettre la version du moteur, seulement le nom. La valeur astérisque " * " indique que le fichier s’applique pour tous les moteurs de recherche.
- Disallow : La valeur de cette variable indique aux moteurs de recherche les fichiers ou répertoires (dossier) à ne pas visiter donc à ne pas indexer. Elle peut contenir un URL partiel ou complet. Exemple : Disallow: /help empêche l’indexation de /help.html et /help/index.html, alors que Disallow: /help/ empêchera l’indexation de /help/index.html mais autorisera l’indexation de /help.html. Aucune valeur, indique aux moteurs de recherche l’accès total. Cette variable doit être absolument présente.
- Allow : Malgré son utilisation qui ne me semble pas standard, je vois quelque fois cette variable utilisée comme Disallow mais, pour permettre l’indexation de certain fichier ou répertoire (dossier). Attention quand même.
Un ficher robots.txt sans aucune valeur est considérée comme inexistant.
Vous pouvez indiquer des remarques à l’aide du symbole # sous serveur UNIX.
Exemple :
# Empêche l’indexation d’un répertoire, du fichier fichier.html, de tout le répertoire
# tmp et tout fichier tmp.* pour le moteur webcrawler et infoseek.
User-agent: webcrawler # seulement webcrawler
User-agent: infoseek # seulement infoseek
Disallow: /cgi-bin/ # Avec un URL virtuel
Disallow: /tmp
Disallow: /fichier.html
# N’indexe pas du tout le site.
User-agent: * # Tout les moteurs de recherche
Disallow: /
ATTENTION, un mauvais usage de ce fichier peut empêcher les moteurs de recherche d’indexer à tout jamais votre site. C’est pourquoi je vous suggère de le tester avec ce service gratuit :
Vérificateur de la systaxe du fichier robots.txt (lien brisé)
Deux adresses
utiles sur le fichier robots.txt.
robots-txt.com
http://info.webcrawler.com/mak/projects/robots/norobots.html (lien brisé)
http://info.webcrawler.com/mak/projects/robots/norobots-rfc.html (lien brisé)
Attention aux robots (note du 9 août 2023)
Méfiez-vous des robots à l’ère du Far-Web. Plusieurs robots d’indexation se moquent systématiquement des directives du fichier « robots.txt » contrairement à ce qu’ils prétendent ! Ils peuvent faire des milliers de requêtes en quelques secondes en utilisant un IP différent à chaque requête, un IP de n’importe où dans le monde sauf de l’endroit où ils prétendent venir ! Est-ce vraiment des robots chinois ? Impossible de le dire, va savoir si on n’essaie pas de leur faire porter le chapeau qui leur sied à merveille ! Mais garder toujours à l’esprit que ce fichier « robots.txt » est une arme à deux tranchants. Elle permet aussi d’indiquer en clair ce que vous désirez cacher ! C’est comme crier à tout vent, « N’ouvrez pas cette porte, elle cache certainement un trésor ! ». Des robots qui utilisent un IP différent à chaque requête dans la même seconde et qui ne respecte pas les conventions ne sont probablement pas honnêtes...