Articlum – Rédaction assisté par IA

flower

Générateur de robots.txt gratuit

L'outil robots.txt regroupe en deux onglets un générateur (pour générer un fichier robots.txt à partir d'options simples) et un testeur (pour récupérer le fichier robots.txt existant d'un domaine et tester si une URL spécifique est autorisée ou bloquée).

Le fichier robots.txt (parfois écrit par erreur robot.txt au singulier) indique aux moteurs de recherche quelles parties d'un site ils peuvent ou ne peuvent pas crawler. C'est l'un des tout premiers fichiers consultés par Googlebot lors de sa visite.

Outil robots.txt

User-agent: *
Allow: /

Onglet Générateur

Choisissez d'abord le mode global pour tous les robots :

  • Autoriser tous : comportement par défaut, aucun blocage de base.
  • Bloquer tous : ajoute Disallow: / pour interdire toute l'indexation, utile pour un site en construction.
  • Personnalisé : aucune règle implicite, vous gérez tout via les champs Disallow et Allow.

Disallow et Allow

Saisissez un chemin par ligne, en commençant toujours par /. Attention au piège du slash final, c'est l'erreur la plus courante :

Disallow: /admin     bloque /admin, /admin/, /admin.php ET /administration (match de préfixe)
Disallow: /admin/    bloque uniquement le contenu du dossier /admin/

L'outil détecte automatiquement les chemins ambigus et propose une suggestion. Les caractères * (joker) et $ (fin d'URL) sont également supportés, par exemple Disallow: /*.pdf$ pour bloquer tous les fichiers PDF.

Règles ciblées par bot

Vous pouvez ajouter des règles spécifiques à Googlebot et Bingbot. Quand un bot trouve un groupe à son nom, il ignore complètement le bloc User-agent: *. Utile pour bloquer une zone uniquement à un moteur.

Sitemap

Déclarez une ou plusieurs URL absolues de sitemap XML, une par ligne. Cette directive s'applique à tous les bots indépendamment des groupes User-agent.

Exemple de robots.txt généré

Une configuration typique pour un site WordPress ressemble à ceci :

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Allow: /wp-admin/admin-ajax.php
 
User-agent: Googlebot
Disallow: /private/
 
Sitemap: https://exemple.com/sitemap.xml

Quand une URL matche à la fois un Allow et un Disallow, c'est la règle la plus spécifique (au chemin le plus long) qui gagne, selon la logique longest match wins de Google.

Onglet Testeur

Saisissez un domaine pour récupérer son robots.txt. L'outil parse les directives, compte les User-agent, Allow, Disallow et Sitemap, et signale l'absence éventuelle d'un sitemap. Vous pouvez ensuite saisir une URL spécifique pour vérifier si elle est autorisée par les règles existantes, avec la même logique longest match wins que Google.

Robots.txt absent

Si le fichier n'existe pas (HTTP 404), l'outil affiche une explication pédagogique : par défaut, tous les robots peuvent crawler l'intégralité du site, mais aucun sitemap ne peut être déclaré via cette voie.