クローラーについて
Webサイトをクロールするための設定と使い方について説明します。
クローラーとは
クローラーは、指定されたWebサイトを巡回し、ページの内容を収集してインデックス化するプログラムです。neodigでは、このクローラーを使用して、お客様のWebサイトのコンテンツを検索可能な形式に変換します。
クロール間隔について
neodig クローラーはページの種別や更新頻度に応じて、クロール間隔を決定しクロールします。
被リンクの無いページ
他のページからリンクされていないページです。これらのページは、1週間後に自動的に削除されます。削除予定日時は、ページ詳細で確認できます。クローラー操作から即時削除することもできます。
パスの指定方法(Globパターン)
neodigでは、設定を適用するURLをGlobパターンで指定します。Globパターンを使うことで、柔軟にURLを指定できます。
Globパターンの基本
| パターン | 説明 | マッチする例 |
|---|---|---|
/item.php | 完全一致 | /item.php のみ |
/blog/* | 1階層のワイルドカード | /blog/post |
/blog/** | 複数階層のワイルドカード | /blog/2024/01/post |
/item*.php | 部分ワイルドカード | /item.php, /item_detail.php |
/page?.html | 1文字のワイルドカード | /page1.html, /pageA.html |
指定例
/item.php - /item.php のみに適用
/blog/* - /blog/ 直下のページに適用
/blog/** - /blog/ 配下のすべてのページに適用
/**/*.php - すべての .php ファイルに適用
/* - ルート直下のすべてのページに適用
** は複数階層にマッチし、* は単一階層内でのみマッチします。設定の流れ
クローラーを利用するには、以下の順序で設定を行います。
- 基本設定: クロール並列数、インターバル、User-Agentを設定
- ドメイン追加: クロール対象のドメインを登録
- ルートURL設定: クロールの開始地点を指定
- 詳細設定 (任意):
- URLパラメータの書き換え
- クロール対象の制御
- HTML共通部分の除外
- コンテンツ抽出ルールのカスタマイズ
- インデックス作成: 検索インデックスを作成してクロール開始