Webクローラーを構成する
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
Sitecore Search Webクローラーは、ハイパーリンクを介してコンテンツをクロールし、インデックス ドキュメントを作成するソースです。Webクローラーは簡単で構成が簡単で、コーディングは必要ありません。Webクローラーは、ハイパーテキスト リンクの最後にあるHTMLページとPDFにインデックスを付けます。
Webクローラーは、トリガーと呼ばれる開始点から開始されます。開始点がサイトマップまたはサイトマップ インデックスの場合、クローラーはサイトマップまたはサイトマップ インデックス内のすべてのURLをクロールします。開始点が要求と呼ばれる単一のURLの場合、クローラーはそれらのページから新しいページへのハイパーリンクをたどります。
インデックス作成方法を選択するときは、クローラータイプの詳細な仕様を参照してください。
このチュートリアルでは、次の方法について説明します。
この例では、author、name、およびtype属性の値を抽出します。
サイトマップトリガーは、サイトマップ内の各URLの最終更新日(lastmod)フィールドを利用します。これにより、インデックス作成の速度が向上し、コンテンツ更新の効率が向上します。
Webクローラー ソースを作成する
Webクローラーのソースを作成するには:
-
CONNECTORドロップダウンリストで、Web Crawlerをクリックします。
クローラー設定を構成する
Webクローラー設定の構成には、クロール トリガーと最大URLの定義が含まれます。
クローラー設定を構成するには:
-
メニュー バーでSourcesをクリックし、作成したソースをクリックします。
-
左側のペインでWeb Crawler Settingsをクリックし、Web Crawler Settingsセクションで
Editをクリックします。 -
Webクローラーのトリガーを設定するには、TRIGGER TYPEドロップダウンリストで、Request、Sitemap、およびSitemap Indexのいずれかのオプションを選択します。
-
URLまたはURLSフィールドに、サイトマップのURLを入力します。
たとえば、「 https://doc.sitecore.com/search/sitemap.xml」と入力します。
手記サイトマップまたはサイトマップ インデックスを選択すると、複数のURLを追加できます。
-
Click Save。
属性の値を抽出する
Webクローラーには、属性の値を抽出するためのさまざまな方法が用意されています。選択する方法は、値の場所とアクセス方法によって異なります。
1回のクロールで複数のエンティティの値を抽出するには、Webクローラーを高度なWebクローラーに変換する必要があります。Webクローラーは、1つの エンティティの値のみを抽出できます。
属性の場合、次のような値を設定します。
-
Webページのヘッダー セクションのメタ タグから抽出されます。
-
XMLドキュメントをトラバースして抽出します。
-
クローラーによってインデックス付けされたすべての項目で同一です。
構成を簡略化するために、Webクローラーは、XPathメソッドを使用してtype、url、name、およびdescriptionの値を抽出するように事前構成されています。 EXTRACTION TYPEドロップダウン リストで別のタイプを選択することで、いつでも方法を変更できます。
エンティティ内のすべての属性の値の抽出を編集または構成するには、次のタブで説明されている手順を使用します。
抽出ロジックの検証
定義した属性抽出ロジックが予期した属性値になることを確認するには、構成を 検証 します。
属性抽出ロジックを検証するには:
-
左側のペインでAttribute Extractionをクリックし、Attribute Extractionセクションで
Editをクリックします。 -
ページ上部のメニューバーで、Validateをクリックします。
-
検証ウィンドウのVALIDATION URLフィールドに、インデックスを作成するコンテンツのURLを入力します。
たとえば、www.bank.comのすべてのコンテンツにインデックスを付けるようにソースを設定する場合は、検証をテストするためのサンプルURLとしてwww.bank.com/commercial/loansと入力できます。
-
必要に応じて、Add Validation URLをクリックして、さらにURLを入力します。
例えば、www.bank.comの例を続けると、Webサイトのcommercial、personal、mortgageセクションからサンプルURLを入力できます。または、Webサイトのあるセクションに多数の画像があり、別のセクションにビデオがあることがわかっている場合は、各セクションから1つのURLを入力できます。
手記インデックスを作成するすべてのコンテンツで抽出ロジックが機能するように、複数のURLを入力することをお勧めします。ページ構造とコンテンツ タイプが異なるURLを入力します。
-
Click Validate。
各URLの下には、属性と対応する値のリストが表示されます。
手記属性の横にエラーが表示された場合は、現在の抽出ロジックがそのURLに対して機能していないことがわかり、編集が必要になる場合があります。
-
検証ウィンドウを閉じるには、Close
をクリックします。 -
必要に応じて、属性抽出ロジックを更新し、5までの2手順を繰り返して、新しいロジックがすべてのサンプルURLのすべての属性値を返すかどうかを確認します。
-
Click Save。
クローラーのスケジュール設定
クローラーをスケジュールするには:
ソースへの更新の発行
最初のクロール項目とインデックス項目を開始するには、ソースを発行する必要があります。また、ソースに変更を加えるたびにソースを公開する必要があります。
