ドメイン管理

クロール対象のドメインを管理します。

ドメインとは

ドメインは、クロール対象となるWebサイトの単位です。各ドメインに対して、以下の設定を個別に行うことができます。

  • ルートURL(クロールの開始地点)
  • URLパラメータの書き換えルール
  • クロール対象の制御
  • HTML共通部分の除外設定
  • コンテンツ抽出ルール
  • sitemap.xmlの解析設定
  • robots.txtの準拠設定
ドメイン名には、プロトコル(http://https://)を含めず、ドメイン部分のみを入力してください。

sitemap.xmlの解析

各ドメインに対して、sitemap.xmlの解析を有効または無効に設定できます。デフォルトでは有効になっています。

sitemap.xmlの解析が有効な場合、クローラーはドメインの sitemap.xml を自動的に取得・解析し、記載されているURLをクロール対象として追加します。これにより、リンクをたどるだけでは発見できないページも漏れなくクロールできます。

また、sitemap.xmlに掲載されているページは、被リンクがない場合でも削除対象になりません。

この設定は、ドメイン追加時またはドメイン詳細画面の「ドメイン設定変更」ボタンから変更できます。

robots.txtへの準拠

各ドメインに対して、robots.txtへの準拠を有効または無効に設定できます。デフォルトでは有効になっています。

robots.txtの準拠が有効な場合、クローラーはドメインの robots.txt を取得し、記載されているルールに従ってクロールを行います。Disallow で指定されたパスはクロール対象から除外されます。

この設定は、ドメイン追加時またはドメイン詳細画面の「基本設定」から変更できます。

ドメインの設定

ドメイン一覧から設定したいドメインをクリックすると、そのドメインの詳細設定画面に移動します。

設定項目

各ドメインでは、以下の設定が可能です。

1. ルートURL(必須)

クローラーがクロールを開始する起点となるURLを設定します。

2. URLパラメータの書き換え(任意)

URLパラメータを削除または置換することで、重複コンテンツの登録を防ぎます。

3. クロール対象設定(任意)

URLパスごとに、クロールの動作を細かく制御できます。

4. HTML共通部分の除外(任意)

ヘッダー、フッター、サイドバーなどの共通部分を除外し、本文のみを抽出します。

5. HTMLコンテンツ抽出(任意)

画像、カテゴリ、タイトルなどのコンテンツを、カスタムルールで抽出します。