[Neu] Cloud-Backups werden einfacher - Duplicator Cloud eliminiert Speicher von Drittanbietern
[Neu] Cloud-Backups werden einfacher - Duplicator Cloud eliminiert Speicher von Drittanbietern
John Turner
John Turner
Sie haben eine WordPress-Website mit mehr als 500 Seiten vor sich, und Ihr Kunde möchte eine vollständige Überprüfung der fehlerhaften Links.
Sie können sich manuell durch jede einzelne Seite klicken oder einen Web-Crawler die schwere Arbeit in etwa 20 Minuten erledigen lassen.
Web-Crawler sind automatisierte Bots, die systematisch Websites durchsuchen, jedem Link folgen, den sie finden, und alles katalogisieren, was sie entdecken.
In diesem Beitrag erkläre ich, was Webcrawler tun, empfehle die besten Tools für verschiedene Situationen und zeige Ihnen, wie Sie einen für Ihre nächste Website-Migration verwenden können.
Sie werden es lernen:
Ein Web-Crawler (auch Spider oder Bot genannt) ist ein Internet-Bot, der das Internet systematisch durchsucht, um Seiten zu indizieren und zu katalogisieren.
Das berühmteste Beispiel? Googlebot.
Googlebot beginnt mit einer Liste bekannter URLs aus früheren Crawls und Sitemaps. Er besucht jede Seite, liest den Inhalt und folgt jedem Link, den er findet. Diese neuen Links werden in die Warteschlange für künftige Besuche aufgenommen.
Dieser Prozess wiederholt sich endlos und baut den riesigen Index der Google-Webseiten auf.
Sie können eine kleinere Version auf Ihrer eigenen Website laufen lassen. Anstatt das gesamte Internet zu indizieren, kartiert Ihr Crawler die gesamte Struktur und den Inhalt Ihrer Website mit maschineller Genauigkeit.
Keine fehlenden Seiten. Keine menschlichen Fehler. Nur eine umfassende Übersicht über alles, was auf Ihrer Domain existiert.
Der Hauptgrund für den Einsatz eines Webcrawlers sind technische SEO-Audits.
Crawler zeichnen sich dadurch aus, dass sie defekte Links, fehlerhafte Weiterleitungen, die die Nutzer im Kreis herumführen, fehlende oder doppelte Seitentitel, leere Meta-Beschreibungen und Seiten mit dünnem Inhalt erkennen, die Ihren Rankings schaden können.
Die Prüfung von Inhalten ist ein weiterer wichtiger Anwendungsfall.
Crawler entdecken häufig vergessene Seiten, die Ihrer Suchmaschinenoptimierung schaden können, z. B. automatisch generierte Tag-Archive, alte Landing Pages oder doppelte Inhalte, die sich im Laufe der Zeit angesammelt haben. Diese Seiten bleiben bei manuellen Audits oft unbemerkt, tauchen aber bei einem umfassenden Crawl sofort auf.
Aber hier werden Crawler absolut kritisch: Website-Migrationen.
Wenn Sie eine WordPress-Website auf eine neue Domain oder einen neuen Server verschieben, erstellt ein Crawler eine vollständige Karte Ihrer alten Website. Diese können Sie dann mit Ihrer neuen Website vergleichen, um zu überprüfen, ob jede Seite, jede Weiterleitung und jede wichtige Datei die Reise erfolgreich überstanden hat.
Ohne diesen Überprüfungsschritt können Sie nur hoffen, dass bei der Übersetzung nichts verloren gegangen ist.
Welcher Crawler für Sie der richtige ist, hängt von Ihrer technischen Kompetenz und Ihren Zielen ab.
Einige sind für SEO-Profis entwickelt worden. Andere richten sich an Geschäftsinhaber, die einfach nur zeigen, klicken und Ergebnisse erzielen wollen.
Hier ist meine Übersicht über die besten Optionen:
Screaming Frog durchforstet Ihre Website, um defekte Links zu finden, Weiterleitungen zu überprüfen, Seitentitel und Meta-Beschreibungen zu analysieren und spezifische Daten mit CSS Path oder XPath-Selektoren zu extrahieren. Es kann JavaScript-Rendering handhaben, externen Links folgen und alles in CSV für weitere Analysen exportieren.

Diese Desktop-Anwendung (verfügbar für Windows, macOS und Ubuntu) ist seit Jahren der Goldstandard für technische SEO-Experten.
Die kostenlose Version crawlt bis zu 500 URLs, was die meisten kleinen bis mittleren WordPress-Websites abdeckt. Für größere Websites hebt die kostenpflichtige Lizenz diese Begrenzung auf und fügt Funktionen wie benutzerdefinierte Extraktion, Google Analytics-Integration und geplante Crawls hinzu.
Die Schnittstelle kann anfangs überwältigend sein. Ich finde jedoch, dass die Tiefe der Daten, die sie bietet, unübertroffen ist.
Webscraper.io ist eine Chrome-Erweiterung, die sich auf schnelle Datenextraktionsaufgaben konzentriert.
Der Bequemlichkeitsfaktor ist hier enorm - keine zu installierende Software, keine komplexe Einrichtung. Sie erstellen eine "Sitemap" (ihr Begriff für einen Scraping-Plan) direkt in Ihrem Browser und teilen ihm mit, welche Elemente er anklicken und welche Daten er extrahieren soll.
Webscraper.io eignet sich perfekt für kleinere Aufgaben, wie z. B. das Sammeln einer Liste von Blogpost-Titeln von der Website eines Mitbewerbers oder das Sammeln von Produktinformationen von einigen wenigen Seiten. Der visuelle Selektor macht es einfach, genau das zu finden, was Sie brauchen.
Die kostenlose Version erledigt grundlegende Scraping-Aufgaben. Mit der kostenpflichtigen Version erhalten Sie zusätzlich Cloud-basiertes Crawling, geplante Läufe und API-Zugang, um die Daten in andere Tools zu integrieren.
Semrush ist eine der beliebtesten SEO-Audit-Plattformen. Sie bietet umfassende Toolkits für Vermarkter und Unternehmen, um ihre SEO zu verbessern.
Für On-Page- und technische SEO bietet Semrush ein Site Audit-Tool. Dieses wird durch Crawling-Technologie betrieben.
Semrush durchsucht Ihre Website nach Problemen wie doppeltem Inhalt, fehlenden Titel-Tags, fehlerhaften Bildern und anderen Fehlern. Sobald Sie über diese Probleme Bescheid wissen, können Sie sie beheben.

Wenn Sie bereits für Semrush bezahlen, ist der Site Audit Crawler inbegriffen. Allerdings beginnen die Semrush-Pläne bei 117 $/Monat, so dass es sich wahrscheinlich nicht lohnt, sich nur für den Crawler anzumelden, es sei denn, Sie planen, auch die anderen SEO-Tools zu nutzen.
Wie Semrush führt auch Ahrefs ein umfassendes Site Audit innerhalb seines SEO-Toolkits durch.
Der Crawler ist schnell, und die Benutzeroberfläche macht technische Fehler hervorragend sichtbar. Sie gibt Ihnen eine allgemeine SEO-Bewertung und eine Liste potenzieller Probleme.

Außerdem lässt es sich mit anderen Ahrefs-Tools wie dem Rank Tracker und dem Site Explorer integrieren. Sie können sehen, wie technische Probleme mit der Ranking-Performance und Backlink-Profilen korrelieren.
Sie können das Site Audit von Ahrefs bis zu 5.000 monatlich gecrawlte Seiten kostenlos nutzen.
Hier können Crawler ihren Wert beweisen. Zu einer ordnungsgemäßen Migration gehören zwei Crawls: einer vor und einer nach dem Umzug der Website.
Als ersten Schritt vor der Migration Ihrer Website sollten Sie eine vollständige Bestandsaufnahme Ihrer aktuellen Website durchführen, indem Sie sie crawlen.
Starten Sie den Crawler Ihrer Wahl und lassen Sie ihn auf Ihrer Quellseite laufen. Konfigurieren Sie ihn so, dass er die URL, den HTTP-Statuscode, den Seitentitel, die Meta-Beschreibung, die H1-Tags und die Wortanzahl für jede gefundene Seite erfasst.
Exportieren Sie all diese Daten in ein Arbeitsblatt. Dies ist Ihre endgültige Aufzeichnung, wie Ihre Website vor der Migration aussah.
Nachdem Sie Ihre Website an ihren neuen Standort verschoben haben, führen Sie dieselbe Crawl-Konfiguration auf Ihrer Zielsite durch.
Jetzt kommt die detektivische Arbeit: Vergleichen Sie die beiden Tabellenkalkulationen. Verwenden Sie die VLOOKUP-Funktion von Excel (oder ähnliche Tools in Google Sheets), um die Daten miteinander zu vergleichen.
Suchen Sie nach Seiten, die auf der alten Website einen 200-Statuscode zurückgegeben haben, auf der neuen Website aber 404-Seiten ausgeben. Überprüfen Sie, ob Ihre Weiterleitungen ordnungsgemäß funktionieren - eine 301-Weiterleitung auf der alten Website sollte auch eine 301-Weiterleitung auf der neuen Website sein. Überprüfen Sie, ob Seitentitel und Metabeschreibungen die Reise unbeschadet überstanden haben.
Durch diesen Abgleich werden Migrationsprobleme aufgedeckt, die sonst monatelang unbemerkt bleiben würden.
Im Allgemeinen ist das Crawlen von öffentlich zugänglichen Webseiten legal, wenn Sie robots.txt beachten und in einem angemessenen Tempo crawlen. Einige Websites verbieten das Crawlen jedoch in ihren Nutzungsbedingungen. Im Zweifelsfall sollten Sie Ihre eigenen Seiten crawlen oder eine ausdrückliche Erlaubnis einholen.
Ein Crawler (oder Spider) entdeckt und besucht Webseiten, indem er Links folgt, während ein Scraper bestimmte Daten von diesen Seiten extrahiert. Die meisten modernen Tools erfüllen beide Funktionen. Das Verständnis der Unterscheidung hilft bei der Bewertung verschiedener Tools für bestimmte Aufgaben.
Webcrawler lassen sich in vier Hauptkategorien einteilen: technische SEO-Crawler (wie Screaming Frog), Datenextraktionstools (wie Octoparse), integrierte Suite-Crawler (in SEO-Plattformen integriert) und Entwickler-Frameworks (wie Scrapy). Jeder dieser Crawler erfüllt unterschiedliche Bedürfnisse und Qualifikationsniveaus.
Für technische SEO-Arbeiten kann die kostenlose Version von Screaming Frog bis zu 500 URLs verarbeiten. Für die schnelle Datenextraktion funktioniert die Browsererweiterung Webscraper.io gut ohne Softwareinstallation.
Ein aggressiver Crawler kann Ihre Website verlangsamen wie eine Verkehrsspitze, insbesondere bei gemeinsam genutztem Hosting. Mit guten Crawling-Tools können Sie die Crawling-Geschwindigkeit durch Verzögerungen zwischen den Anfragen und Verbindungslimits steuern. Verwenden Sie diese Einstellungen immer auf Produktionsseiten.
Die Datei robots.txt teilt Crawlern mit, auf welche Teile Ihrer Website sie zugreifen können. Legen Sie sie unter yoursite.com/robots.txt ab, um bestimmte Crawler zu blockieren oder den Zugriff auf Verzeichnisse zu beschränken. Denken Sie daran, dass brave Crawler die Datei respektieren, aber bösartige Bots können sie ignorieren.
AutoGPT kann mit Hilfe von Bibliotheken wie Scrapy Code für Web Scraper schreiben, aber es führt das Crawling nicht selbst durch. Betrachten Sie es als einen Programmierassistenten, der bei der Erstellung von Scraping-Tools hilft. Sie müssen den generierten Code immer noch ausführen, um Websites tatsächlich zu crawlen.
Hier erfahren Sie, wie Sie den richtigen Crawler für Ihre Situation auswählen:
Sie können das gründlichste Crawler-Audit der Welt durchführen, aber wenn Ihr Migrationstool Dateien löscht, Datenbanken zerstört oder die Struktur Ihrer Website beschädigt, ist all diese Vorbereitung sinnlos.
Deshalb empfehle ich, Ihren Crawler mit Duplicator Pro zu koppeln. Während Ihr Crawler die Vorher-Nachher-Überprüfung durchführt, übernimmt Duplicator Pro die eigentliche Schwerstarbeit beim Verschieben Ihrer WordPress-Website.
Sind Sie bereit, Ihren Migrations-Workflow zu verbessern? Testen Sie Duplicator Pro noch heute und erfahren Sie, warum Tausende von WordPress-Profis bei der Migration ihrer Websites auf Duplicator Pro vertrauen.
Wenn Sie schon einmal hier sind, werden Sie diese handverlesenen WordPress-Ressourcen sicher mögen:
Offenlegung: Unsere Inhalte werden von unseren Lesern unterstützt. Das bedeutet, wenn Sie auf einige unserer Links klicken, erhalten wir möglicherweise eine Provision. Wir empfehlen nur Produkte, von denen wir glauben, dass sie für unsere Leser einen Mehrwert darstellen.