[I backup in cloud sono appena diventati più semplici: Duplicator Cloud elimina l'archiviazione di terze parti
[I backup in cloud sono appena diventati più semplici: Duplicator Cloud elimina l'archiviazione di terze parti
John Turner
John Turner
Avete davanti a voi un sito WordPress con oltre 500 pagine e il vostro cliente vuole una verifica completa dei link non funzionanti.
Potreste cliccare manualmente su ogni singola pagina o lasciare che un web crawler faccia il lavoro pesante in circa 20 minuti.
I web crawler sono bot automatizzati che esplorano sistematicamente i siti web, seguendo ogni link che trovano e catalogando ciò che scoprono.
In questo post vi spiegherò cosa fanno i web crawler, vi consiglierò gli strumenti migliori per le diverse situazioni e vi mostrerò come utilizzarne uno per la prossima migrazione del vostro sito web.
Imparerete:
Un web crawler (chiamato anche spider o bot) è un bot di Internet che naviga sistematicamente sul web per indicizzare e catalogare le pagine.
L'esempio più famoso? Googlebot.
Googlebot inizia con un elenco di URL conosciuti da precedenti crawl e sitemap. Visita ogni pagina, legge il contenuto e segue ogni link che trova. I nuovi link vengono aggiunti alla coda per le visite future.
Questo processo si ripete all'infinito, costruendo l'enorme indice di pagine web di Google.
È possibile eseguire una versione su scala ridotta sul proprio sito web. Invece di indicizzare l'intera rete Internet, il crawler mappa la struttura completa e i contenuti del vostro sito con una precisione a livello di macchina.
Nessuna pagina persa. Nessun errore umano. Solo una visione completa di tutto ciò che esiste sul vostro dominio.
Il motivo principale per utilizzare un web crawler è per le verifiche tecniche SEO.
I crawler eccellono nell'individuare link rotti, reindirizzamenti errati che mandano in tilt gli utenti, titoli di pagina mancanti o duplicati, meta-descrizioni vuote e pagine con contenuto scarso che potrebbero danneggiare il vostro posizionamento.
La verifica dei contenuti è un altro caso d'uso importante.
I crawler spesso scoprono pagine dimenticate che possono danneggiare la SEO, come archivi di tag generati automaticamente, vecchie landing page o contenuti duplicati accumulati nel tempo. Queste pagine spesso passano inosservate durante le revisioni manuali, ma appaiono immediatamente in un crawling completo.
Ma è qui che i crawler diventano assolutamente critici: le migrazioni di siti web.
Quando si sposta un sito WordPress su un nuovo dominio o server, un crawler crea una mappa completa del vecchio sito. È quindi possibile confrontarla con quella del nuovo sito per verificare che ogni pagina, ogni reindirizzamento e ogni file importante abbia compiuto il viaggio con successo.
Senza questa fase di verifica, non si fa altro che incrociare le dita e sperare che nulla si sia perso nella traduzione.
Il crawler giusto dipende dal vostro livello di comfort tecnico e da ciò che state cercando di ottenere.
Alcuni sono pensati per i professionisti della SEO. Altri si rivolgono ai proprietari di aziende che vogliono semplicemente puntare, cliccare e ottenere risultati.
Ecco la mia analisi delle migliori opzioni:
Screaming Frog esegue il crawling del sito per trovare i link non funzionanti, verificare i reindirizzamenti, analizzare i titoli delle pagine e le meta-descrizioni ed estrarre dati specifici utilizzando i selettori CSS Path o XPath. Può gestire il rendering di JavaScript, seguire i link esterni ed esportare tutto in CSV per ulteriori analisi.

Questa applicazione desktop (disponibile per Windows, macOS e Ubuntu) è da anni il gold standard per i professionisti della SEO tecnica.
La versione gratuita esegue il crawling di un massimo di 500 URL, che copre la maggior parte dei siti WordPress di piccole e medie dimensioni. Per i siti più grandi, la licenza a pagamento elimina questo limite e aggiunge funzioni come l'estrazione personalizzata, l'integrazione con Google Analytics e le scansioni programmate.
All'inizio l'interfaccia può sembrare opprimente. Tuttavia, trovo che la profondità dei dati che fornisce sia ineguagliabile.
Webscraper.io è un'estensione di Chrome che si concentra sulle attività di estrazione rapida dei dati.
Il fattore convenienza è enorme: nessun software da installare, nessuna configurazione complessa. Si crea una "sitemap" (il loro termine per indicare un piano di scraping) direttamente nel browser, indicando quali elementi cliccare e quali dati estrarre.
Webscraper.io è perfetto per i lavori più piccoli, come l'acquisizione di un elenco di titoli di blog dal sito di un concorrente o la raccolta di informazioni sui prodotti da alcune pagine. Il selettore visuale rende facile individuare esattamente ciò di cui si ha bisogno.
La versione gratuita gestisce le attività di scraping di base. I piani a pagamento aggiungono il crawling basato su cloud, le esecuzioni programmate e l'accesso API per integrare i dati in altri strumenti...
Semrush è una delle piattaforme di verifica SEO più popolari. Fornisce kit di strumenti completi per i marketer e le aziende per far crescere la loro SEO.
Per la SEO on-page e tecnica, Semrush fornisce uno strumento di Site Audit. Questo strumento si basa sulla tecnologia di crawling.
Semrush effettua il crawling del vostro sito web, alla ricerca di problemi di salute come contenuti duplicati, tag title mancanti, immagini non funzionanti e altri errori. Una volta individuati questi problemi, è possibile risolverli.

Se state già pagando Semrush, il Site Audit crawler è incluso. Tuttavia, i piani di Semrush partono da 117 dollari al mese, quindi probabilmente non vale la pena abbonarsi solo per il crawler, a meno che non si intenda utilizzare anche gli altri strumenti SEO.
Come Semrush, Ahrefs esegue un Site Audit completo all'interno del suo toolkit SEO.
Il crawler è veloce e l'interfaccia fa un ottimo lavoro di visualizzazione degli errori tecnici. Fornisce un punteggio SEO complessivo e un elenco di potenziali problemi.

Inoltre, si integra con altri strumenti Ahrefs come Rank Tracker e Site Explorer. È possibile vedere come i problemi tecnici siano correlati alle prestazioni di ranking e ai profili di backlink.
È possibile utilizzare gratuitamente il Site Audit di Ahrefs fino a un massimo di 5.000 pagine strisciate mensilmente.
È qui che i crawler dimostrano il loro valore. Una migrazione corretta prevede due crawl: uno prima di spostare il sito e uno dopo.
Come primo passo prima di migrare il vostro sito web, create un inventario completo del vostro sito attuale effettuando un crawling.
Avviare il crawler scelto ed eseguirlo sul sito di origine. Configuratelo per acquisire l'URL, il codice di stato HTTP, il titolo della pagina, la meta descrizione, i tag H1 e il numero di parole per ogni pagina che trova.
Esportare tutti questi dati in un foglio di calcolo. Questo diventa il registro definitivo di come appariva il sito prima della migrazione.
Dopo aver spostato il sito nella nuova sede, eseguire la stessa configurazione di crawl sul sito di destinazione.
Ora viene il lavoro da detective: confrontare i due fogli di calcolo. Utilizzate la funzione VLOOKUP di Excel (o strumenti simili in Google Sheets) per incrociare i dati.
Cercate le pagine che sul vecchio sito restituivano un codice di stato 200, ma che sul nuovo sito danno 404. Verificate che i reindirizzamenti funzionino correttamente: un reindirizzamento 301 sul vecchio sito dovrebbe essere ancora un reindirizzamento 301 sul nuovo sito. Verificate che i titoli e le meta-descrizioni delle pagine siano rimasti intatti.
Questo processo di confronto individua i problemi di migrazione che altrimenti potrebbero passare inosservati per mesi.
In linea di massima, sì, il crawling di pagine web accessibili al pubblico è legale se si rispetta il file robots.txt e si effettua a un ritmo ragionevole. Tuttavia, alcuni siti vietano il crawling nei loro termini di servizio. In caso di dubbio, effettuate il crawling dei vostri siti o richiedete un'autorizzazione esplicita.
Un crawler (o spider) scopre e visita le pagine web seguendo i link, mentre uno scraper estrae dati specifici da quelle pagine. La maggior parte degli strumenti moderni svolge entrambe le funzioni. Capire la distinzione aiuta a valutare i diversi strumenti per compiti specifici.
I crawler web si dividono in quattro categorie principali: crawler SEO tecnici (come Screaming Frog), strumenti di estrazione dei dati (come Octoparse), crawler suite integrati (integrati nelle piattaforme SEO) e framework per sviluppatori (come Scrapy). Ognuno di essi risponde a esigenze e livelli di competenza diversi.
Per il lavoro SEO tecnico, il livello gratuito di Screaming Frog gestisce fino a 500 URL. Per una rapida estrazione dei dati, l'estensione del browser Webscraper.io funziona bene senza installazione di software.
Un crawler aggressivo può rallentare il sito come un picco di traffico, soprattutto su un hosting condiviso. I buoni strumenti di crawling consentono di controllare la velocità di crawling con ritardi tra le richieste e limiti di connessione. Utilizzate sempre queste impostazioni sui siti in produzione.
Il file robots.txt indica ai crawler quali parti del sito possono accedere. Inseritelo in yoursite.com/robots.txt per bloccare crawler specifici o limitare l'accesso alle directory. Tenete presente che i crawler ben educati lo rispettano, ma i bot malintenzionati possono ignorarlo.
AutoGPT è in grado di scrivere codice per gli scraper web utilizzando librerie come Scrapy, ma non esegue direttamente il crawling. È un assistente di codifica che aiuta a costruire strumenti di scraping. È comunque necessario eseguire il codice generato per eseguire effettivamente il crawling dei siti web.
Ecco come scegliere il crawler giusto per la vostra situazione:
Potete eseguire la verifica crawler più accurata del mondo, ma se lo strumento di migrazione fa cadere file, rompe database o corrompe la struttura del sito, tutta la preparazione diventa inutile.
Ecco perché consiglio di abbinare il crawler a Duplicator Pro. Mentre il crawler si occupa della verifica prima e dopo, Duplicator Pro si occupa dell'effettivo lavoro pesante di spostamento del sito WordPress.
Siete pronti a migliorare il vostro flusso di lavoro di migrazione? Provate Duplicator Pro oggi stesso e scoprite perché migliaia di professionisti di WordPress si affidano a questo software per lo spostamento dei loro siti.
Mentre siete qui, penso che vi piaceranno queste risorse WordPress selezionate a mano:
Divulgazione: I nostri contenuti sono sostenuti dai lettori. Ciò significa che se cliccate su alcuni dei nostri link, potremmo guadagnare una commissione. Raccomandiamo solo prodotti che riteniamo possano apportare un valore aggiunto ai nostri lettori.