Robots.txt empêche-t-il vraiment l'indexation ?

Non. Il empêche le crawl des chemins bloqués, mais une URL déjà connue via des liens peut rester indexée sans description. Pour retirer une page de l'index, utilisez la balise meta robots noindex, et laissez le crawl ouvert afin que Google puisse lire cette directive.

Où doit se trouver le fichier robots.txt ?

Obligatoirement à la racine du domaine, accessible à l'adresse votredomaine.fr/robots.txt. Un fichier placé dans un sous-dossier est purement et simplement ignoré par les moteurs. Un seul fichier gère l'ensemble du domaine, avec au besoin des règles différenciées par user-agent selon les robots visés.

Quelle est l'erreur la plus dangereuse à éviter ?

Laisser un Disallow: / actif en production : cette ligne interdit le crawl de tout le site et peut le faire disparaître des résultats. Elle provient souvent d'un environnement de développement oublié. Vérifiez toujours votre robots.txt après une mise en ligne pour éviter la catastrophe.

Accueil / Glossaire SEO GEO / Robots.txt

Technique

Robots.txt

Definition SEO et GEO

Le fichier qui indique aux robots quelles parties du site ils peuvent explorer. À manier avec prudence : ne jamais bloquer tout le site avec Disallow: /.

Comment fonctionne Robots.txt

Placé à la racine du domaine, robots.txt est le premier fichier que consultent les crawlers. Il liste des règles par user-agent : Disallow pour interdire un chemin, Allow pour autoriser une exception. Les robots conformes respectent ces directives et évitent d'explorer les zones bloquées, ce qui économise le budget de crawl. Attention : bloquer le crawl n'empêche pas forcément l'indexation d'une URL déjà connue, et une seule ligne trop large peut rendre tout un site invisible aux moteurs.

Le robot explore les pages puis Google les indexe.

Exemple concret

Exemple

Un site souhaite empêcher le crawl de son espace admin et de sa recherche interne. Le fichier contient : User-agent: * puis Disallow: /wp-admin/ et Disallow: /?s=. Le sitemap y est aussi déclaré via Sitemap: https://exemple.fr/sitemap.xml. Erreur classique à éviter : lors d'une mise en production, laisser traîner un Disallow: / hérité de la version de développement, qui bloque tout le site et fait chuter le trafic en quelques jours. Autre piège : bloquer /wp-content/ et empêcher Google de charger le CSS et le JS nécessaires au rendu correct des pages.

En chiffres

Trois repères essentiels sur le fichier robots.txt.

fichier à la racine

Disallow: /

ligne qui bloque tout

garantie de non-indexation

Reperes illustratifs, a titre pedagogique. Les resultats reels varient selon la concurrence et la qualite editoriale.

Erreurs frequentes a eviter

Laisser un Disallow: / hérité de l'environnement de test
Croire que bloquer le crawl garantit la non-indexation
Bloquer le CSS et le JS nécessaires au rendu des pages
Oublier de déclarer le sitemap dans le fichier

Robots.txt avec Hack The SEO

Hack The SEO audite et corrige le technique (redirections, schéma, balises, sitemap) en 1 clic, avec un historique réversible. Decouvrir le plugin SEO WordPress Hack The SEO.

Terme precedent

Résultats enrichis (rich results)

Terme suivant

Schema.org

Questions frequentes

Robots.txt empêche-t-il vraiment l'indexation ?: Non. Il empêche le crawl des chemins bloqués, mais une URL déjà connue via des liens peut rester indexée sans description. Pour retirer une page de l'index, utilisez la balise meta robots noindex, et laissez le crawl ouvert afin que Google puisse lire cette directive.
Où doit se trouver le fichier robots.txt ?: Obligatoirement à la racine du domaine, accessible à l'adresse votredomaine.fr/robots.txt. Un fichier placé dans un sous-dossier est purement et simplement ignoré par les moteurs. Un seul fichier gère l'ensemble du domaine, avec au besoin des règles différenciées par user-agent selon les robots visés.
Quelle est l'erreur la plus dangereuse à éviter ?: Laisser un Disallow: / actif en production : cette ligne interdit le crawl de tout le site et peut le faire disparaître des résultats. Elle provient souvent d'un environnement de développement oublié. Vérifiez toujours votre robots.txt après une mise en ligne pour éviter la catastrophe.

On en parle ?

Hack The SEO applique tout ca a votre site WordPress, pilote en langage naturel. Reservez 20 minutes, on regarde votre cas ensemble.

Reserver 20 minutes