クローラーについて

Webサイトをクロールするための設定と使い方について説明します。

クローラーとは

クローラーは、指定されたWebサイトを巡回し、ページの内容を収集してインデックス化するプログラムです。neodigでは、このクローラーを使用して、お客様のWebサイトのコンテンツを検索可能な形式に変換します。

クロール間隔について

neodig クローラーはページの種別や更新頻度に応じて、クロール間隔を決定しクロールします。

被リンクの無いページ

他のページからリンクされていないページです。これらのページは、1週間後に自動的に削除されます。削除予定日時は、ページ詳細で確認できます。クローラー操作から即時削除することもできます。

パスの指定方法(Globパターン)

neodigでは、設定を適用するURLをGlobパターンで指定します。Globパターンを使うことで、柔軟にURLを指定できます。

Globパターンの基本

パターン説明マッチする例
/item.php完全一致/item.php のみ
/blog/*1階層のワイルドカード/blog/post
/blog/**複数階層のワイルドカード/blog/2024/01/post
/item*.php部分ワイルドカード/item.php, /item_detail.php
/page?.html1文字のワイルドカード/page1.html, /pageA.html

指定例

/item.php          - /item.php のみに適用
/blog/*            - /blog/ 直下のページに適用
/blog/**           - /blog/ 配下のすべてのページに適用
/**/*.php          - すべての .php ファイルに適用
/*                 - ルート直下のすべてのページに適用
** は複数階層にマッチし、* は単一階層内でのみマッチします。

設定の流れ

クローラーを利用するには、以下の順序で設定を行います。

  1. 基本設定: クロール並列数、インターバル、User-Agentを設定
  2. ドメイン追加: クロール対象のドメインを登録
  3. ルートURL設定: クロールの開始地点を指定
  4. 詳細設定 (任意):
    • URLパラメータの書き換え
    • クロール対象の制御
    • HTML共通部分の除外
    • コンテンツ抽出ルールのカスタマイズ
  5. インデックス作成: 検索インデックスを作成してクロール開始