ドメイン管理
ドメインとは
ドメインは、クロール対象となるWebサイトの単位です。各ドメインに対して、以下の設定を個別に行うことができます。
- ルートURL(クロールの開始地点)
- URLパラメータの書き換えルール
- クロール対象の制御
- HTML共通部分の除外設定
- コンテンツ抽出ルール
- sitemap.xmlの解析設定
- robots.txtの準拠設定
http:// や https://)を含めず、ドメイン部分のみを入力してください。sitemap.xmlの解析
各ドメインに対して、sitemap.xmlの解析を有効または無効に設定できます。デフォルトでは有効になっています。
sitemap.xmlの解析が有効な場合、クローラーはドメインの sitemap.xml を自動的に取得・解析し、記載されているURLをクロール対象として追加します。これにより、リンクをたどるだけでは発見できないページも漏れなくクロールできます。
また、sitemap.xmlに掲載されているページは、被リンクがない場合でも削除対象になりません。
この設定は、ドメイン追加時またはドメイン詳細画面の「ドメイン設定変更」ボタンから変更できます。
robots.txtへの準拠
各ドメインに対して、robots.txtへの準拠を有効または無効に設定できます。デフォルトでは有効になっています。
robots.txtの準拠が有効な場合、クローラーはドメインの robots.txt を取得し、記載されているルールに従ってクロールを行います。Disallow で指定されたパスはクロール対象から除外されます。
この設定は、ドメイン追加時またはドメイン詳細画面の「基本設定」から変更できます。
ドメインの設定
ドメイン一覧から設定したいドメインをクリックすると、そのドメインの詳細設定画面に移動します。
設定項目
各ドメインでは、以下の設定が可能です。
1. ルートURL(必須)
クローラーがクロールを開始する起点となるURLを設定します。
2. URLパラメータの書き換え(任意)
URLパラメータを削除または置換することで、重複コンテンツの登録を防ぎます。
3. クロール対象設定(任意)
URLパスごとに、クロールの動作を細かく制御できます。
4. HTML共通部分の除外(任意)
ヘッダー、フッター、サイドバーなどの共通部分を除外し、本文のみを抽出します。
5. HTMLコンテンツ抽出(任意)
画像、カテゴリ、タイトルなどのコンテンツを、カスタムルールで抽出します。