デフォルトでは、クローラーはページのタイトルや本文テキストを自動的に抽出します。しかし、サイトによっては、特定の情報(アイキャッチ画像、カテゴリタグ、更新日時など)を抽出したい場合があります。
HTMLコンテンツ抽出機能を使うことで、CSSセレクタを指定して、これらの情報を柔軟に抽出できます。
以下のフィールドに対して、カスタム抽出ルールを設定できます。
| フィールド | 説明 |
|---|---|
| タイトル | ページタイトル |
| 画像URL | 検索結果のサムネイルとして表示する画像です |
| 最終更新日時 | ページの更新日です |
| カテゴリタグ | ページからカテゴリタグを抽出できます。カテゴリの検索対象になります |
| チャンクテキスト | 検索結果のサマリ表示や、RAGの検索において利用されます。 |
| 汎用文字列1 | 検索結果に表示するための文字列です。検索対象として指定することはできません |
| 汎用文字列2 | 検索結果に表示するための文字列です。検索対象として指定することはできません |
| 汎用文字列3 | 検索結果に表示するための文字列です。検索対象として指定することはできません |
各フィールドでは、以下の項目を設定します。
設定名: ブログ記事のアイキャッチ
優先度: 1
パス: /blog/**
フィールド設定:
- フィールド: image
CSSセレクタ: .post-thumbnail img
この設定により、.post-thumbnail 内の img タグの src 属性が、image フィールドに抽出されます。
設定名: ブログカテゴリ
優先度: 1
パス: /blog/**
フィールド設定:
- フィールド: category_tags
CSSセレクタ: .post-categories a
区切り文字: ,
複数のカテゴリが存在する場合、区切り文字で結合されます。
設定名: 記事更新日
優先度: 1
パス: /blog/**
フィールド設定:
- フィールド: last_modified
CSSセレクタ: .post-date time
設定名: 記事著者
優先度: 1
パス: /blog/**
フィールド設定:
- フィールド: generic_string1
CSSセレクタ: .post-author .name
CSSセレクタは、HTML共通部分の除外と同様に、IDやクラス名、タグ名で指定できます。
.article-image img - クラス article-image 内の img タグ
#main-content h1 - ID main-content 内の h1 タグ
meta[property="og:image"] - property属性が og:image のmetaタグ
単一項目を区切り文字で分割できます。
セレクタ .tags で以下の要素が抽出された場合:
<div class="tags">
JavaScript,React,Node.js
</div>
区切り文字に , を指定すると、結果は JavaScript、React、Node.js の3つに分割されます。
URLパスは、Globパターンで指定します。
複数の設定が同じパスに一致する場合、優先度の一番大きいもののみ適用されます。