[新機能] クラウドバックアップがよりシンプルに - Duplicator Cloudがサードパーティストレージを排除
[新機能] クラウドバックアップがよりシンプルに - Duplicator Cloudがサードパーティストレージを排除
ジョン・ターナー
ジョン・ターナー
あなたは500ページ以上のWordPressサイトとにらめっこしている。
手作業ですべてのページをクリックすることもできるし、ウェブクローラーに任せて20分ほどで大仕事をさせることもできる。
ウェブ・クローラーとは、ウェブサイトを体系的に閲覧する自動化されたボットのことで、見つけたリンクをすべてたどり、発見したものをカタログ化する。
この記事では、ウェブクローラーが何をするのかを説明し、様々な状況に最適なツールをお勧めし、次回のウェブサイト移行に使用する方法をご紹介します。
あなたは学ぶだろう:
ウェブクローラー(スパイダーまたはボットとも呼ばれる)は、体系的にウェブを閲覧し、ページのインデックスやカタログを作成するインターネットボットです。
最も有名な例は?グーグルボット。
Googlebotは、過去のクロールやサイトマップから得た既知のURLのリストからスタートする。各ページを訪問し、コンテンツを読み、見つけたリンクをすべてたどります。これらの新しいリンクは、将来の訪問のためにキューに追加されます。
このプロセスが延々と繰り返され、グーグルの膨大なウェブページのインデックスが構築される。
自分のウェブサイト上で小規模なバージョンを実行することができます。インターネット全体をインデックス化する代わりに、クローラーはあなたのサイトの完全な構造とコンテンツを機械レベルの精度でマッピングします。
ページの見落としがない。ヒューマンエラーもありません。あなたのドメインに存在するすべてを包括的に表示します。
ウェブクローラーを使用する主な理由は、技術的なSEO監査である。
クローラーは、リンク切れ、ユーザーを迷わせる誤ったリダイレクト、ページタイトルの欠落や重複、空のメタディスクリプション、ランキングに悪影響を及ぼす可能性のある内容の薄いページなどを特定することに長けています。
コンテンツ監査も主要な使用例である。
クローラーは、自動生成されたタグアーカイブ、古いランディングページ、長期間蓄積された重複コンテンツなど、SEOに悪影響を与える忘れ去られたページを頻繁に発見します。このようなページは、手動監査ではレーダーの下に隠れてしまうことが多いのですが、包括的なクロールではすぐに現れます。
しかし、ここでクローラーが絶対的に重要になるのが、ウェブサイトの移行だ。
WordPressサイトを新しいドメインやサーバーに移行する際、クローラーが旧サイトの完全なマップを作成します。これを新しいサイトと比較することで、すべてのページ、すべてのリダイレクト、すべての重要なファイルが正常に移動できたかどうかを確認できます。
この検証ステップを踏まなければ、基本的に指をくわえて、翻訳中に何も失われていないことを祈ることになる。
適切なクローラーは、あなたの技術的な快適さのレベルとあなたが達成しようとしていることに依存します。
SEOの専門家のために作られたものもある。また、ただポイントしてクリックして結果を得たいビジネスオーナー向けのものもある。
以下は私のベストオプションの内訳である:
Screaming Frogは、あなたのサイトをクロールしてリンク切れを見つけ、リダイレクトを監査し、ページタイトルとメタディスクリプションを分析し、CSSパスまたはXPathセレクタを使って特定のデータを抽出します。JavaScriptのレンダリングを処理し、外部リンクをたどり、さらなる分析のためにすべてをCSVにエクスポートすることができます。

このデスクトップアプリケーション(Windows、macOS、Ubuntuで利用可能)は、テクニカルSEOの専門家にとって長年にわたってゴールドスタンダードとなっている。
無料版では500URLまでクロール可能で、ほとんどの中小規模のWordPressサイトをカバーできる。大規模サイトの場合は、有料ライセンスでこの制限がなくなり、カスタム抽出、Google Analytics統合、スケジュールクロールなどの機能が追加されます。
最初はインターフェイスに圧倒されるかもしれない。しかし、データの深さは他の追随を許さない。
Webscraper.ioは、迅速なデータ抽出作業に特化したChrome拡張機能です。
ソフトウェアをインストールする必要もなく、複雑な設定も必要ない。ブラウザで直接「サイトマップ」(スクレイピング・プランに対する彼らの用語)を作成し、どの要素をクリックしてどのデータを抽出するかを指示する。
Webscraper.ioは、競合サイトのブログ記事タイトルのリストを取得したり、いくつかのページから製品情報を収集するような小さな仕事に最適です。ビジュアルセレクターを使えば、必要な情報を簡単に絞り込むことができる。
無料版は、基本的なスクレイピング作業に対応する。有料プランでは、クラウドベースのクローリング、スケジュール実行、他のツールにデータを統合するためのAPIアクセスが追加されます。
Semrushは、最も人気のあるSEO監査プラットフォームの1つです。マーケティング担当者や企業がSEOを成長させるための包括的なツールキットを提供しています。
オンページおよびテクニカルSEOのために、Semrushはサイト監査ツールを提供しています。これはクローリング技術によって実現されています。
Semrushはあなたのウェブサイトをクロールし、重複コンテンツ、タイトルタグの欠落、画像の破損、その他のエラーなどの健康上の問題を探します。これらの問題がわかれば、修正することができます。

すでにSemrushの料金を支払っている場合、Site Auditクローラーは含まれている。ただし、Semrushのプランは月額117ドルからなので、他のSEOツールも使う予定がない限り、クローラーのためだけに契約する価値はないだろう。
Semrushと同様、AhrefsもSEOツールキットの中で包括的なサイトオーディットを実施している。
クローラーは高速で、インターフェイスは技術的なエラーを視覚化するのに優れている。総合的なSEOスコアと潜在的な問題点のリストが表示されます。

さらに、Rank TrackerやSite Explorerなどの他のAhrefsツールと統合することができます。技術的な問題とランキングパフォーマンスやバックリンクプロファイルとの相関関係を確認することができます。
Ahrefsのサイトオーディットは、月間クロール数5,000ページまで無料でご利用いただけます。
クローラーがその価値を証明するのはここからだ。適切な移行には2回のクロールが必要です。1回はサイトを移行する前、もう1回は移行した後です。
ウェブサイトを移行する前の最初のステップとして、現在のサイトをクロールして完全なインベントリーを作成します。
選択したクローラーを起動し、ソースサイトで実行する。見つけたすべてのページのURL、HTTPステータスコード、ページタイトル、メタディスクリプション、H1タグ、ワードカウントを取得するように設定します。
すべてのデータをスプレッドシートにエクスポートします。これが、移行前のサイトがどのようなものであったかの決定的な記録となる。
サイトを新しい場所に移動したら、移動先のサイトでも同じクロール設定を実行する。
2つのスプレッドシートを比較するのだ。ExcelのVLOOKUP関数(またはGoogle Sheetsの同様のツール)を使って、データを相互参照する。
旧サイトで200のステータスコードを返していたページが、新サイトでは404になっていないか確認する。旧サイトの301リダイレクトは新サイトでも301リダイレクトであるべきです。ページタイトルとメタディスクリプションがそのまま移行されていることを確認する。
この比較プロセスは、通常であれば何カ月も気づかれない可能性のある移行の問題を発見する。
一般的に、robots.txtを尊重し、合理的なペースでクロールすれば、一般にアクセス可能なウェブページをクロールすることは合法である。しかし、サイトによっては利用規約でクロールを禁止しているところもある。疑わしい場合は、自分のサイトをクロールするか、明確な許可を得ること。
クローラー(またはスパイダー)は、リンクをたどってウェブページを発見して訪問し、スクレイパーはそれらのページから特定のデータを抽出する。最近のツールのほとんどは、両方の機能を備えている。この違いを理解することは、特定のタスクに対して異なるツールを評価する際に役立ちます。
ウェブクローラーは、テクニカルSEOクローラー(Screaming Frogのような)、データ抽出ツール(Octoparseのような)、統合スイートクローラー(SEOプラットフォームに組み込まれている)、開発者向けフレームワーク(Scrapyのような)の4つの主要カテゴリーに分類される。それぞれが異なるニーズとスキルレベルに対応している。
テクニカルなSEO対策には、Screaming Frogの無料版が500URLまで対応している。素早くデータを抽出するには、Webscraper.ioブラウザ拡張機能がソフトウェアをインストールすることなくうまく機能する。
攻撃的なクローラーは、特に共有ホスティングでは、トラフィックの急増のようにサイトを遅くすることができます。優れたクローリングツールでは、リクエスト間の遅延や接続制限でクロール速度をコントロールできる。本番サイトでは常にこれらの設定を使用しましょう。
robots.txtファイルは、クローラーにあなたのサイトのどの部分にアクセスできるかを伝えます。yoursite.com/robots.txtに設置することで、特定のクローラーをブロックしたり、ディレクトリへのアクセスを制限することができます。お行儀の良いクローラーはこれを尊重しますが、悪意のあるボットはこれを無視する可能性があることを覚えておいてください。
AutoGPTは、Scrapyのようなライブラリを使ってウェブスクレイパーのコードを書くことはできるが、クロールそのものは行わない。AutoGPTは、スクレイピングツールの構築を支援するコーディングアシスタントとお考えください。実際にウェブサイトをクロールするには、生成されたコードを実行する必要があります。
ここでは、あなたの状況に適したクローラーを選ぶ方法を説明する:
世界で最も徹底的なクローラー監査を実施することは可能だが、移行ツールがファイルを落としたり、データベースを壊したり、サイト構造を壊してしまえば、せっかくの準備も無意味になってしまう。
そこで、クローラーとDuplicator Proを組み合わせることをお勧めします。クローラーがビフォーアフターの検証を行う一方、Duplicator ProはWordPressサイトを移動させる実際の力仕事を行います。
移行ワークフローをアップグレードする準備はできましたか?今すぐ Duplicator Pro を試して、何千人もの WordPress プロフェッショナルがサイト移行を Duplicator Pro に任せている理由をご覧ください。
ここにいる間、私はあなたがこれらの厳選されたWordPressのリソースを気に入ると思います:
情報開示私たちのコンテンツは読者支援型です。つまり、あなたが私たちのリンクをクリックした場合、私たちはコミッションを得る可能性があります。私たちは、読者に付加価値をもたらすと信じる製品のみを推薦します。