高度なWebクローラーを構成する
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
Sitecore Search高度なWebクローラーは、コンテンツをクロールしてインデックスに追加する強力なクローラーです。ソース コンテンツにアクセスするための認証の必要性、複数の言語でのインデックス ドキュメントの作成、JavaScriptを使用した属性値の抽出など、複雑なユースケースを処理できます。
インデックス作成方法を選択するときは、クローラータイプの詳細な仕様を参照してください。
このチュートリアルでは、次の方法について説明します。
元のコンテンツがクローラがアクセスする前に認証が必要な場合は、クローラー認証設定を構成します。たとえば、元のコンテンツには、GUIベースのユーザー名とパスワード、または要求ヘッダーのアクセス トークンまたはキーが必要になる場合があります。これは、ソースの作成後いつでも実行できます。
高度なWebクローラー ソースを作成する
ソースを作成するには:
-
CONNECTORドロップダウンリストで、Web Crawler (Advanced) をクリックします。
クローラー設定を構成する
Webクローラー設定の構成には、許可されるドメインと最大URLの定義が含まれます。
クローラー設定を構成するには:
-
メニュー バーでSourcesをクリックし、作成したソースをクリックします。
-
左側のペインでWeb Crawler Settingsをクリックし、Web Crawler Settingsセクションで
Editをクリックします。 -
Click Save。
トリガーを構成する
高度なWebクローラーの トリガー を構成すると、インデックスを作成するコンテンツを検索するための出発点が得られます。この手順で説明されているように、要求トリガーの使用に加えて、次のタイプのトリガーを使用できます。
-
RSSの
-
サイトマップインデックス
サイトマップトリガーは、サイトマップ内の各URLの最終更新日(lastmod)フィールドを利用します。これにより、インデックス作成の速度が向上し、コンテンツ更新の効率が向上します。
ドキュメント抽出器を作成する
ドキュメント抽出器を設定すると、1つまたは複数のエンティティの属性の値を抽出する方法が指定されます。
この手順で説明するXPathドキュメント抽出器の種類に加えて、次のものを使用できます。
-
CSSドキュメントエクストラクタ
クローラーのスケジュール設定
クローラーをスケジュールするには:
ソースへの更新の発行
最初のクロール項目とインデックス項目を開始するには、ソースを発行する必要があります。また、ソースに変更を加えるたびにソースを公開する必要があります。

