HTMLコンテンツ抽出

HTML内の画像、カテゴリ、タイトルなどのコンテンツをカスタムルールで抽出します。

HTMLコンテンツ抽出とは

デフォルトでは、クローラーはページのタイトルや本文テキストを自動的に抽出します。しかし、サイトによっては、特定の情報(アイキャッチ画像、カテゴリタグ、更新日時など)を抽出したい場合があります。

HTMLコンテンツ抽出機能を使うことで、CSSセレクタを指定して、これらの情報を柔軟に抽出できます。

抽出可能なフィールド

以下のフィールドに対して、カスタム抽出ルールを設定できます。

フィールド説明
タイトルページタイトル
画像URL検索結果のサムネイルとして表示する画像です
最終更新日時ページの更新日です
カテゴリタグページからカテゴリタグを抽出できます。カテゴリの検索対象になります
チャンクテキスト検索結果のサマリ表示や、RAGの検索において利用されます。
汎用文字列1検索結果に表示するための文字列です。検索対象として指定することはできません
汎用文字列2検索結果に表示するための文字列です。検索対象として指定することはできません
汎用文字列3検索結果に表示するための文字列です。検索対象として指定することはできません

フィールド設定

各フィールドでは、以下の項目を設定します。

  • フィールド: 抽出先のフィールド(上表参照)
  • CSSセレクタ: 抽出元の要素を指定
  • 区切り文字: 複数の要素を結合する際の区切り文字(オプション)
複数のフィールドを同時に設定できます。「+フィールドを追加」ボタンで追加してください。

一般的な使用例

ブログ記事のアイキャッチ画像を抽出

設定名: ブログ記事のアイキャッチ
優先度: 1
パス: /blog/**
フィールド設定:
  - フィールド: image
    CSSセレクタ: .post-thumbnail img

この設定により、.post-thumbnail 内の img タグの src 属性が、image フィールドに抽出されます。

カテゴリタグを抽出

設定名: ブログカテゴリ
優先度: 1
パス: /blog/**
フィールド設定:
  - フィールド: category_tags
    CSSセレクタ: .post-categories a
    区切り文字: ,

複数のカテゴリが存在する場合、区切り文字で結合されます。

更新日時を抽出

設定名: 記事更新日
優先度: 1
パス: /blog/**
フィールド設定:
  - フィールド: last_modified
    CSSセレクタ: .post-date time

著者名を抽出

設定名: 記事著者
優先度: 1
パス: /blog/**
フィールド設定:
  - フィールド: generic_string1
    CSSセレクタ: .post-author .name

CSSセレクタの指定方法

CSSセレクタは、HTML共通部分の除外と同様に、IDやクラス名、タグ名で指定できます。

セレクタの例

.article-image img         - クラス article-image 内の img タグ
#main-content h1          - ID main-content 内の h1 タグ
meta[property="og:image"] - property属性が og:image のmetaタグ
より詳細な情報は、ブラウザの開発者ツールで要素を調査してCSSセレクタを確認してください。

区切り文字について

単一項目を区切り文字で分割できます。

セレクタ .tags で以下の要素が抽出された場合:

<div class="tags">
  JavaScript,React,Node.js
</div>

区切り文字に , を指定すると、結果は JavaScriptReactNode.js の3つに分割されます。

パスの指定(Globパターン)

URLパスは、Globパターンで指定します。

優先度について

複数の設定が同じパスに一致する場合、優先度の一番大きいもののみ適用されます。