HTML共通部分の除外機能を使うことで、ヘッダー、フッター、サイドバーなどの共通部分を除外し、本文のみを抽出できます。
多くのWebサイトでは、すべてのページに共通のヘッダー、フッター、ナビゲーションメニューなどが含まれています。これらの共通部分をインデックスに含めると、検索精度が低下します。 HTML共通部分の除外機能を使うことで、ページの本文のみを抽出し、検索精度を向上させることができます。
除外する要素は、CSSセレクタで指定します。
| セレクタ | 説明 | 例 |
|---|---|---|
#id | ID指定 | #header |
.class | クラス指定 | .sidebar |
tag | タグ指定 | nav |
tag.class | タグとクラスの組み合わせ | header.main-header |
#header - ID が header の要素を除外
.sidebar - クラスが sidebar の要素を除外
nav - nav タグの要素を除外
footer - footer タグの要素を除外
URLパスは、Globパターンで指定します。
複数の設定が同じパスに一致する場合、優先度の一番大きいもののみ適用されます。