[Nouveau] Les sauvegardes dans le Cloud deviennent plus simples - Duplicator Cloud élimine le stockage par des tiers
[Nouveau] Les sauvegardes dans le Cloud deviennent plus simples - Duplicator Cloud élimine le stockage par des tiers
John Turner
John Turner
Vous êtes face à un site WordPress de plus de 500 pages et votre client souhaite un audit complet des liens brisés.
Vous pouvez parcourir chaque page manuellement ou laisser un robot d'indexation faire le gros du travail en 20 minutes environ.
Les robots d'indexation sont des robots automatisés qui parcourent systématiquement les sites web, en suivant tous les liens qu'ils trouvent et en cataloguant ce qu'ils découvrent.
Dans cet article, j'expliquerai ce que font les robots d'indexation, je recommanderai les meilleurs outils pour différentes situations et je vous montrerai comment en utiliser un lors de la prochaine migration de votre site web.
Vous apprendrez :
Un web crawler (également appelé spider ou bot) est un robot internet qui parcourt systématiquement le web pour indexer et cataloguer les pages.
L'exemple le plus célèbre ? Googlebot.
Googlebot part d'une liste d'URL connues, issues d'explorations et de sitemaps antérieurs. Il visite chaque page, lit le contenu et suit tous les liens qu'il trouve. Ces nouveaux liens sont ajoutés à sa file d'attente pour de futures visites.
Ce processus se répète à l'infini, construisant l'énorme index de pages web de Google.
Vous pouvez exécuter une version à plus petite échelle sur votre propre site web. Au lieu d'indexer l'ensemble de l'internet, votre crawler cartographie la structure et le contenu complets de votre site avec une précision digne d'une machine.
Pas de pages manquées. Pas d'erreur humaine. Juste une vue d'ensemble de tout ce qui existe sur votre domaine.
La première raison d'utiliser un robot d'exploration est de réaliser des audits techniques de référencement.
Les crawlers excellent dans l'identification des liens brisés, des redirections défectueuses qui font tourner les utilisateurs en rond, des titres de page manquants ou dupliqués, des méta-descriptions vides et des pages à faible contenu qui peuvent nuire à votre classement.
L'audit de contenu est un autre cas d'utilisation important.
Les crawlers découvrent souvent des pages oubliées qui peuvent nuire à votre référencement, comme les archives de balises générées automatiquement, les anciennes pages d'atterrissage ou le contenu dupliqué qui s'est accumulé au fil du temps. Ces pages passent souvent inaperçues lors des audits manuels, mais apparaissent immédiatement lors d'un crawl complet.
Mais c'est là que les crawlers deviennent absolument essentiels : les migrations de sites web.
Lorsque vous déplacez un site WordPress vers un nouveau domaine ou un nouveau serveur, un robot d'exploration crée une carte complète de votre ancien site. Vous pouvez ensuite comparer cette carte à celle de votre nouveau site pour vérifier que chaque page, chaque redirection et chaque fichier important a fait le voyage avec succès.
Sans cette étape de vérification, vous croisez les doigts en espérant que rien ne s'est perdu dans la traduction.
Le choix du bon crawler dépend de votre niveau d'aisance technique et de ce que vous essayez d'accomplir.
Certains sont conçus pour les professionnels du référencement. D'autres s'adressent aux chefs d'entreprise qui souhaitent simplement pointer, cliquer et obtenir des résultats.
Voici mon analyse des meilleures options :
Screaming Frog parcourt votre site pour trouver les liens brisés, vérifier les redirections, analyser les titres de page et les méta-descriptions, et extraire des données spécifiques à l'aide des sélecteurs CSS Path ou XPath. Il peut gérer le rendu JavaScript, suivre les liens externes et tout exporter au format CSV pour une analyse plus approfondie.

Cette application de bureau (disponible pour Windows, macOS et Ubuntu) est depuis des années la référence pour les professionnels du référencement technique.
La version gratuite explore jusqu'à 500 URL, ce qui couvre la plupart des sites WordPress de petite et moyenne taille. Pour les sites plus importants, la licence payante supprime cette limite et ajoute des fonctionnalités telles que l'extraction personnalisée, l'intégration de Google Analytics, et les crawls planifiés.
L'interface peut sembler écrasante au début. Cependant, je trouve que la profondeur des données qu'elle fournit est inégalée.
Webscraper.io est une extension Chrome qui se concentre sur les tâches d'extraction rapide de données.
Le facteur de commodité est énorme ici - pas de logiciel à installer, pas de configuration complexe. Vous créez un "plan du site" (leur terme pour désigner un plan de scraping) directement dans votre navigateur, en lui indiquant les éléments sur lesquels cliquer et les données à extraire.
Webscraper.io est parfait pour les petits travaux tels que l'obtention d'une liste de titres d'articles de blog sur le site d'un concurrent ou la collecte d'informations sur un produit à partir de quelques pages. Le sélecteur visuel permet de cibler exactement ce dont vous avez besoin.
La version gratuite prend en charge les tâches de scraping de base. Les formules payantes ajoutent l'exploration basée sur le cloud, les exécutions programmées et l'accès à l'API pour l'intégration des données dans d'autres outils...
Semrush est l'une des plateformes d'audit SEO les plus populaires. Elle fournit des outils complets aux spécialistes du marketing et aux entreprises pour développer leur référencement.
Pour le référencement on-page et technique, Semrush fournit un outil d'audit de site. Celui-ci est alimenté par une technologie de crawling.
Semrush parcourra votre site web, à la recherche de problèmes de santé tels que le contenu dupliqué, les balises de titre manquantes, les images cassées et d'autres erreurs. Une fois que vous avez connaissance de ces problèmes, vous pouvez les résoudre.

Si vous payez déjà pour Semrush, le crawler Site Audit est inclus. Cependant, les plans de Semrush commencent à 117$/mois, il n'est donc probablement pas utile de s'abonner uniquement pour le crawler à moins que vous n'ayez l'intention d'utiliser les autres outils de référencement également.
Comme Semrush, Ahrefs propose un audit complet du site dans sa boîte à outils SEO.
Le crawler est rapide et l'interface permet de visualiser les erreurs techniques. Il vous donne un score SEO global et une liste de problèmes potentiels.

De plus, il s'intègre à d'autres outils Ahrefs tels que Rank Tracker et Site Explorer. Vous pouvez voir comment les problèmes techniques sont corrélés avec les performances de classement et les profils de liens retour.
Vous pouvez utiliser gratuitement l'audit de site d'Ahrefs jusqu'à 5 000 pages explorées par mois.
C'est là que les robots d'indexation prouvent leur valeur. Une migration correcte implique deux explorations : l'une avant le déplacement du site et l'autre après.
Avant de migrer votre site web, commencez par dresser un inventaire complet de votre site actuel en l'explorant.
Lancez le crawler de votre choix et exécutez-le sur votre site source. Configurez-le pour qu'il capture l'URL, le code d'état HTTP, le titre de la page, la méta-description, les balises H1 et le nombre de mots pour chaque page qu'il trouve.
Exportez toutes ces données vers une feuille de calcul. Cela vous permettra de savoir à quoi ressemblait votre site avant la migration.
Après avoir déplacé votre site vers son nouvel emplacement, exécutez la même configuration d'exploration sur votre site de destination.
Il s'agit maintenant de faire un travail de détective : comparez les deux feuilles de calcul. Utilisez la fonction VLOOKUP d'Excel (ou des outils similaires dans Google Sheets) pour croiser les données.
Recherchez les pages qui renvoient des codes d'état 200 sur l'ancien site, mais qui renvoient des codes 404 sur le nouveau. Vérifiez que vos redirections fonctionnent correctement : une redirection 301 sur l'ancien site doit toujours être une redirection 301 sur le nouveau site. Vérifiez que les titres des pages et les méta-descriptions sont restés intacts.
Ce processus de comparaison permet de détecter des problèmes de migration qui pourraient autrement passer inaperçus pendant des mois.
En règle générale, l'exploration de pages web accessibles au public est légale si vous respectez le fichier robots.txt et si vous effectuez l'exploration à un rythme raisonnable. Toutefois, certains sites interdisent le crawl dans leurs conditions d'utilisation. En cas de doute, parcourez vos propres sites ou demandez une autorisation explicite.
Un crawler (ou spider) découvre et visite des pages web en suivant des liens, tandis qu'un scraper extrait des données spécifiques de ces pages. La plupart des outils modernes remplissent les deux fonctions. Comprendre cette distinction permet d'évaluer différents outils pour des tâches spécifiques.
Les robots d'indexation se répartissent en quatre catégories principales : les robots d'indexation pour le référencement technique (comme Screaming Frog), les outils d'extraction de données (comme Octoparse), les robots d'indexation intégrés (dans les plateformes de référencement) et les frameworks pour développeurs (comme Scrapy). Chacun répond à des besoins et à des niveaux de compétence différents.
Pour les travaux de référencement technique, la version gratuite de Screaming Frog gère jusqu'à 500 URL. Pour une extraction rapide des données, l'extension de navigateur Webscraper.io fonctionne bien sans installation de logiciel.
Un robot d'exploration agressif peut ralentir votre site comme un pic de trafic, en particulier sur un hébergement partagé. Les bons outils d'exploration vous permettent de contrôler la vitesse d'exploration à l'aide de délais entre les requêtes et de limites de connexion. Utilisez toujours ces paramètres sur les sites de production.
Le fichier robots.txt indique aux robots d'exploration les parties de votre site auxquelles ils peuvent accéder. Placez-le sur votre site.com/robots.txt pour bloquer certains robots ou restreindre l'accès à certains répertoires. Gardez à l'esprit que les robots d'exploration bien élevés le respectent, mais que les robots malveillants peuvent l'ignorer.
AutoGPT peut écrire du code pour des scrappeurs web utilisant des bibliothèques comme Scrapy, mais il n'effectue pas le crawling lui-même. Considérez-le comme un assistant de codage qui aide à construire des outils de scraping. Vous devez toujours exécuter le code généré pour explorer les sites web.
Voici comment choisir le bon crawler pour votre situation :
Vous pouvez procéder à l'audit le plus complet du monde, mais si votre outil de migration perd des fichiers, casse des bases de données ou corrompt la structure de votre site, toute cette préparation devient inutile.
C'est pourquoi je recommande de coupler votre crawler avec Duplicator Pro. Pendant que votre crawler s'occupe de la vérification avant et après, Duplicator Pro s'occupe du déplacement de votre site WordPress.
Prêt à améliorer votre flux de migration ? Essayez Duplicator Pro dès aujourd'hui et découvrez pourquoi des milliers de professionnels de WordPress lui font confiance pour leurs migrations de sites.
Pendant que vous êtes ici, je pense que vous aimerez ces ressources WordPress triées sur le volet :
Divulgation : Notre contenu est soutenu par les lecteurs. Cela signifie que si vous cliquez sur certains de nos liens, il se peut que nous recevions une commission. Nous ne recommandons que des produits dont nous pensons qu'ils apporteront une valeur ajoutée à nos lecteurs.