[NUEVO] WP Media Cleanup elimina las imágenes no utilizadas que se ocultan en tu biblioteca multimedia.
[NUEVO] WP Media Cleanup elimina las imágenes no utilizadas que se ocultan en tu biblioteca multimedia.
John Turner
John Turner
Tienes delante un sitio de WordPress con más de 500 páginas y tu cliente quiere una auditoría completa de los enlaces rotos.
Puedes hacer clic manualmente en cada página o dejar que un rastreador web haga el trabajo pesado en unos 20 minutos.
Los rastreadores web son robots automatizados que navegan sistemáticamente por los sitios web, siguiendo todos los enlaces que encuentran y catalogando lo que descubren.
En este post, explicaré qué hacen los rastreadores web, recomendaré las mejores herramientas para diferentes situaciones y le mostraré cómo utilizar uno para la próxima migración de su sitio web.
Aprenderás:
Un rastreador web (también llamado araña o bot) es un robot de Internet que navega sistemáticamente por la web para indexar y catalogar páginas.
¿El ejemplo más famoso? Googlebot.
Googlebot comienza con una lista de URL conocidas de rastreos y sitemaps anteriores. Visita cada página, lee el contenido y sigue todos los enlaces que encuentra. Esos nuevos enlaces se añaden a su cola para futuras visitas.
Este proceso se repite sin cesar, construyendo el enorme índice de páginas web de Google.
Puede ejecutar una versión a menor escala en su propio sitio web. En lugar de indexar todo Internet, su rastreador mapea la estructura y el contenido completos de su sitio con precisión de máquina.
Sin páginas perdidas. Sin errores humanos. Sólo una visión completa de todo lo que existe en su dominio.
La razón principal para utilizar un rastreador web es para realizar auditorías técnicas de SEO.
Los rastreadores destacan en la identificación de enlaces rotos, redireccionamientos defectuosos que envían a los usuarios en círculos, títulos de página ausentes o duplicados, meta descripciones vacías y páginas con poco contenido que pueden estar perjudicando su clasificación.
La auditoría de contenidos es otro caso de uso importante.
Los rastreadores descubren con frecuencia páginas olvidadas que pueden dañar su SEO, como archivos de etiquetas generados automáticamente, páginas de destino antiguas o contenido duplicado que se ha acumulado con el tiempo. Estas páginas suelen pasar desapercibidas durante las auditorías manuales, pero aparecen inmediatamente en un rastreo exhaustivo.
Pero aquí es donde los rastreadores se vuelven absolutamente críticos: las migraciones de sitios web.
Al trasladar un sitio de WordPress a un nuevo dominio o servidor, un rastreador crea un mapa completo del sitio antiguo. A continuación, puede compararlo con su nuevo sitio para verificar que cada página, cada redirección y cada archivo importante ha realizado el viaje correctamente.
Sin este paso de verificación, básicamente estás cruzando los dedos y esperando que nada se pierda en la traducción.
El rastreador adecuado depende de su nivel de comodidad técnica y de lo que intente conseguir.
Algunas están pensadas para profesionales del SEO. Otras están pensadas para empresarios que solo quieren apuntar, hacer clic y obtener resultados.
He aquí mi desglose de las mejores opciones:
Screaming Frog rastrea su sitio web para encontrar enlaces rotos, auditar redireccionamientos, analizar títulos y meta descripciones de páginas y extraer datos específicos mediante selectores CSS Path o XPath. Puede gestionar la renderización de JavaScript, seguir enlaces externos y exportar todo a CSV para su posterior análisis.

Esta aplicación de escritorio (disponible para Windows, macOS y Ubuntu) ha sido el estándar de oro para los profesionales técnicos de SEO durante años.
La versión gratuita rastrea hasta 500 URL, lo que cubre la mayoría de los sitios pequeños y medianos de WordPress. Para sitios más grandes, la licencia de pago elimina ese límite y añade funciones como extracción personalizada, integración con Google Analytics y rastreos programados.
La interfaz puede resultar abrumadora al principio. Sin embargo, creo que la profundidad de los datos que proporciona es incomparable.
Webscraper.io es una extensión de Chrome que se centra en tareas rápidas de extracción de datos.
El factor comodidad es enorme: no hay que instalar ningún programa ni realizar configuraciones complejas. Creas un "mapa del sitio" (su término para un plan de scraping) directamente en tu navegador, indicándole qué elementos pulsar y qué datos extraer.
Webscraper.io es perfecto para trabajos más pequeños, como obtener una lista de títulos de entradas de blog del sitio de un competidor o recopilar información de productos de unas pocas páginas. El selector visual hace que sea fácil encontrar exactamente lo que necesitas.
La versión gratuita se encarga de las tareas básicas de scraping. Los planes de pago añaden rastreo en la nube, ejecuciones programadas y acceso a la API para integrar los datos en otras herramientas....
Semrush es una de las plataformas de auditoría SEO más populares. Proporciona conjuntos de herramientas completos para que los profesionales del marketing y las empresas hagan crecer su SEO.
Para SEO on-page y SEO técnico, Semrush proporciona una herramienta de Auditoría del Sitio. Se basa en la tecnología de rastreo.
Semrush rastreará su sitio web en busca de problemas de salud como contenido duplicado, falta de etiquetas de título, imágenes rotas y otros errores. Una vez que conozca estos problemas, podrá solucionarlos.

Si ya está pagando por Semrush, el rastreador Site Audit está incluido. Sin embargo, los planes de Semrush empiezan en 117 $/mes, por lo que probablemente no merezca la pena suscribirse solo por el rastreador, a menos que pienses utilizar también las otras herramientas SEO.
Al igual que Semrush, Ahrefs realiza una auditoría completa del sitio dentro de su conjunto de herramientas SEO.
El rastreador es rápido, y la interfaz hace un excelente trabajo de visualización de errores técnicos. Te da una puntuación SEO general y una lista de problemas potenciales.

Además, se integra con otras herramientas de Ahrefs como Rank Tracker y Site Explorer. Puede ver cómo los problemas técnicos se correlacionan con el rendimiento del ranking y los perfiles de backlinks.
Puede utilizar la Auditoría de Sitios de Ahrefs de forma gratuita hasta 5.000 páginas rastreadas mensualmente.
Aquí es donde los rastreadores demuestran su valía. Una migración adecuada implica dos rastreos: uno antes de trasladar el sitio y otro después.
Como primer paso antes de migrar su sitio web, cree un inventario completo de su sitio actual rastreándolo.
Inicie el rastreador que haya elegido y ejecútelo en el sitio fuente. Configúrelo para que capture la URL, el código de estado HTTP, el título de la página, la meta descripción, las etiquetas H1 y el recuento de palabras de cada página que encuentre.
Exporte todos estos datos a una hoja de cálculo. Esto se convierte en su registro definitivo de cómo era su sitio antes de la migración.
Una vez trasladado el sitio a su nueva ubicación, ejecute la misma configuración de rastreo en el sitio de destino.
Ahora viene el trabajo de detective: comparar las dos hojas de cálculo. Utiliza la función VLOOKUP de Excel (o herramientas similares en Google Sheets) para cruzar los datos.
Busque páginas que devolvían códigos de estado 200 en el sitio antiguo pero que devuelven 404 en el nuevo. Compruebe que las redirecciones funcionan correctamente: una redirección 301 en el sitio antiguo debería seguir siendo una redirección 301 en el nuevo. Compruebe que los títulos y las meta descripciones de las páginas han llegado intactos.
Este proceso de comparación detecta problemas de migración que, de otro modo, podrían pasar desapercibidos durante meses.
En general, sí, rastrear páginas web de acceso público es legal si se respeta el archivo robots.txt y se rastrea a un ritmo razonable. Sin embargo, algunos sitios prohíben el rastreo en sus condiciones de servicio. En caso de duda, rastree sus propios sitios u obtenga permiso explícito.
Un crawler (o araña) descubre y visita páginas web siguiendo enlaces, mientras que un scraper extrae datos específicos de esas páginas. La mayoría de las herramientas modernas realizan ambas funciones. Entender la distinción ayuda a la hora de evaluar diferentes herramientas para tareas específicas.
Los rastreadores web se dividen en cuatro categorías principales: rastreadores SEO técnicos (como Screaming Frog), herramientas de extracción de datos (como Octoparse), rastreadores de suite integrados (incorporados en plataformas SEO) y frameworks para desarrolladores (como Scrapy). Cada uno de ellos responde a necesidades y niveles de competencia diferentes.
Para el trabajo técnico de SEO, el nivel gratuito de Screaming Frog gestiona hasta 500 URL. Para la extracción rápida de datos, la extensión de navegador Webscraper.io funciona bien sin instalación de software.
Un rastreador agresivo puede ralentizar su sitio como un pico de tráfico, especialmente en alojamiento compartido. Las buenas herramientas de rastreo le permiten controlar la velocidad de rastreo con retardos entre solicitudes y límites de conexión. Utilice siempre estos ajustes en los sitios de producción.
El archivo robots.txt indica a los rastreadores a qué partes de su sitio pueden acceder. Colóquelo en yoursite.com/robots.txt para bloquear rastreadores específicos o restringir el acceso a directorios. Tenga en cuenta que los robots que se comportan bien lo respetan, pero los robots maliciosos pueden ignorarlo.
AutoGPT puede escribir código para raspadores web utilizando bibliotecas como Scrapy, pero no realiza el rastreo por sí mismo. Piense en ello como un asistente de codificación que ayuda a construir herramientas de rastreo. Usted todavía tiene que ejecutar el código generado para rastrear realmente sitios web.
A continuación le explicamos cómo elegir el rastreador adecuado para su situación:
Puede realizar la auditoría de rastreo más exhaustiva del mundo, pero si su herramienta de migración deja caer archivos, rompe bases de datos o corrompe la estructura de su sitio, toda esa preparación carece de sentido.
Por eso recomiendo combinar el rastreador con Duplicator Pro. Mientras que su rastreador se encarga de la verificación del antes y el después, Duplicator Pro se encarga del trabajo pesado de mover su sitio de WordPress.
¿Está listo para actualizar su flujo de trabajo de migración? Prueba Duplicator Pro hoy mismo y descubre por qué miles de profesionales de WordPress confían en él para trasladar sus sitios.
Ya que estás aquí, creo que te gustarán estos recursos de WordPress cuidadosamente seleccionados:
Divulgación: Nuestro contenido está apoyado por los lectores. Esto significa que si hace clic en algunos de nuestros enlaces, es posible que ganemos una comisión. Sólo recomendamos productos que creemos que aportarán valor a nuestros lectores.