L'outil robots.txt regroupe en deux onglets un générateur (pour générer un fichier robots.txt à partir d'options simples) et un testeur (pour récupérer le fichier robots.txt existant d'un domaine et tester si une URL spécifique est autorisée ou bloquée).
Le fichier robots.txt (parfois écrit par erreur robot.txt au singulier) indique aux moteurs de recherche quelles parties d'un site ils peuvent ou ne peuvent pas crawler. C'est l'un des tout premiers fichiers consultés par Googlebot lors de sa visite.
User-agent: * Allow: /
Choisissez d'abord le mode global pour tous les robots :
Saisissez un chemin par ligne, en commençant toujours par /. Attention au piège du slash final, c'est l'erreur la plus courante :
Disallow: /admin bloque /admin, /admin/, /admin.php ET /administration (match de préfixe) |
Disallow: /admin/ bloque uniquement le contenu du dossier /admin/ |
L'outil détecte automatiquement les chemins ambigus et propose une suggestion. Les caractères * (joker) et $ (fin d'URL) sont également supportés, par exemple Disallow: /*.pdf$ pour bloquer tous les fichiers PDF.
Vous pouvez ajouter des règles spécifiques à Googlebot et Bingbot. Quand un bot trouve un groupe à son nom, il ignore complètement le bloc User-agent: *. Utile pour bloquer une zone uniquement à un moteur.
Déclarez une ou plusieurs URL absolues de sitemap XML, une par ligne. Cette directive s'applique à tous les bots indépendamment des groupes User-agent.
Une configuration typique pour un site WordPress ressemble à ceci :
User-agent: * |
Disallow: /wp-admin/ |
Disallow: /wp-includes/ |
Allow: /wp-admin/admin-ajax.php |
|
User-agent: Googlebot |
Disallow: /private/ |
|
Sitemap: https://exemple.com/sitemap.xml |
Quand une URL matche à la fois un Allow et un Disallow, c'est la règle la plus spécifique (au chemin le plus long) qui gagne, selon la logique longest match wins de Google.
Saisissez un domaine pour récupérer son robots.txt. L'outil parse les directives, compte les User-agent, Allow, Disallow et Sitemap, et signale l'absence éventuelle d'un sitemap. Vous pouvez ensuite saisir une URL spécifique pour vérifier si elle est autorisée par les règles existantes, avec la même logique longest match wins que Google.
Si le fichier n'existe pas (HTTP 404), l'outil affiche une explication pédagogique : par défaut, tous les robots peuvent crawler l'intégralité du site, mais aucun sitemap ne peut être déclaré via cette voie.