Accueil / Glossaire SEO GEO / Crawl (exploration)
GEO & IACrawl (exploration)
Le passage d'un robot qui parcourt vos pages en suivant les liens. Une page non explorée , par exemple une page orpheline , ne peut pas être indexée.
Comment fonctionne Crawl
Le robot part d'une liste d'URL connues (sitemap, pages deja indexees), telecharge le HTML, extrait les liens et les ajoute a sa file d'attente, en boucle. Il repartit son effort selon un budget de crawl fonction de l'autorite et de la sante technique du site. Une page atteignable en peu de clics depuis l'accueil, correctement liee et rapide a charger, sera exploree plus souvent. A l'inverse, une page orpheline, sans lien entrant interne, reste invisible tant qu'aucun chemin ne la relie.
Exemple concret
Un e-commerce publie 200 fiches produits, mais 40 ne sont reliees a aucune categorie ni sitemap : ce sont des pages orphelines, jamais crawlees, donc absentes de Google. En les rattachant aux categories parentes et en les ajoutant au sitemap, les robots les decouvrent en quelques jours. Le budget de crawl se concentre alors utilement : on bloque aussi les URL a parametres inutiles (filtres, tri) via robots.txt pour eviter le gaspillage. Resultat typique : les 40 fiches passent d'invisibles a explorees, premiere etape avant l'indexation et le trafic.
Trois reperes pour cadrer l'exploration de vos pages par les robots.
Reperes illustratifs, a titre pedagogique. Les resultats reels varient selon la concurrence et la qualite editoriale.
- Laisser des pages orphelines sans aucun lien interne
- Gaspiller le budget de crawl sur des URL a parametres
- Confondre exploration (crawl) et indexation
- Bloquer par erreur des pages utiles dans le robots.txt
Crawl avec Hack The SEO
Hack The SEO calcule un GEO Score par page et liste ce qui manque pour etre cite par ChatGPT, Perplexity et les autres IA. Decouvrir le plugin SEO WordPress Hack The SEO.
Termes lies
Questions frequentes
- Pourquoi une de mes pages n'est-elle pas crawlee ?
- Le plus souvent, aucun lien interne ne la relie au reste du site (page orpheline) ou elle est absente du sitemap. Elle peut aussi etre bloquee par le robots.txt, ou trop profonde dans l'arborescence. Ajoutez des liens depuis des pages deja indexees et verifiez sa presence dans le sitemap.
- Comment ameliorer le budget de crawl ?
- Reduisez les pages inutiles (URL a parametres, doublons, pages de faible valeur), accelerez le temps de reponse serveur, aplatissez l'arborescence et maintenez un sitemap propre. Un site rapide et bien structure incite les robots a explorer plus de pages utiles a chaque passage, sans gaspiller leur quota sur du contenu superflu.
- Crawl et indexation, quelle difference ?
- Le crawl est la lecture de la page par le robot ; l'indexation est son ajout a la base de donnees du moteur. Une page peut etre crawlee sans etre indexee (contenu juge faible, balise noindex, duplication). L'exploration est un prerequis, mais elle ne garantit pas l'apparition dans les resultats de recherche.
On en parle ?
Hack The SEO applique tout ca a votre site WordPress, pilote en langage naturel. Reservez 20 minutes, on regarde votre cas ensemble.
Reserver 20 minutes