インデックス作成を構成する

Webクローラーを構成する

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

Sitecore Search Webクローラーは、ハイパーリンクを介してコンテンツをクロールし、インデックスドキュメントを作成するソースです。Webクローラーは簡単で構成が簡単で、コーディングは必要ありません。Webクローラーは、ハイパーテキストリンクの最後にあるHTMLページとPDFにインデックスを付けます。

Webクローラーは、トリガーと呼ばれる開始点から開始されます。開始点がサイトマップまたはサイトマップインデックスの場合、クローラーはサイトマップまたはサイトマップインデックス内のすべてのURLをクロールします。開始点が要求と呼ばれる単一のURLの場合、クローラーはそれらのページから新しいページへのハイパーリンクをたどります。

大事な

インデックス作成方法を選択するときは、クローラータイプの詳細な仕様を参照してください。

ベストプラクティスのインデックス作成や更新のクロールを正常に行うには、以下のベストプラクティスに従ってください。

このチュートリアルでは、次の方法について説明します。

この例では、author、name、およびtype属性の値を抽出します。

メモ

サイトマップトリガーは、サイトマップ内の各URLの最終更新日(lastmod)フィールドを利用します。これにより、インデックス作成の速度が向上し、コンテンツ更新の効率が向上します。

Webクローラーソースを作成する

Webクローラーのソースを作成するには:

メニューバーで、Sourcesをクリックします。
Click Add Source。
SOURCE NAMEフィールドに、ソースの名前を入力します。
DESCRIPTIONフィールドに、構成するソースを説明する行を数行入力します。
CONNECTORドロップダウンリストで、Web Crawlerをクリックします。
Click Save。エラーがない場合、Searchは新しいソースを作成します。

クローラー設定を構成する

Webクローラー設定の構成には、クロールトリガーと最大URLの定義が含まれます。

クローラー設定を構成するには:

メニューバーでSourcesをクリックし、作成したソースをクリックします。
左側のペインでWeb Crawler Settingsをクリックし、Web Crawler Settingsセクションで Editをクリックします。
Webクローラーのトリガーを設定するには、TRIGGER TYPEドロップダウンリストで、Request、Sitemap、およびSitemap Indexのいずれかのオプションを選択します。
URLまたはURLSフィールドに、サイトマップのURLを入力します。

たとえば、「 https://doc.sitecore.com/search/sitemap.xml」と入力します。

手記

サイトマップまたはサイトマップインデックスを選択すると、複数のURLを追加できます。
クローラーがクロールするURLの深さと数を設定するには:
- MAX DEPTHフィールドに、クローラーがURLにたどるレベルの最大数を入力します。
  
  たとえば、「 5」と入力します。
- MAX URLSフィールドに、クローラーがクロールするURLの最大数を合計で入力します。クローラーがURLを省略しないように、大きな数値を入力します。
  
  たとえば、「 5000」と入力します。
特定のURLパターンをクローラーのスコープから除外するには、Add Exclusion Patternをクリックします。次に、TYPEドロップダウンメニューで、Glob expressionまたはRegular Expressionを選択します。 VALUEフィールドに、除外するURLに一致する式を入力します。

たとえば、クローラーが検索ページをクロールできないようにするには、次のGlob式を入力します。
**/search/**
TIMEOUTフィールドに、クローラーが応答の取得を待機する時間をミリ秒単位で入力します。

たとえば、「 5000」と入力します。これにより、クローラーは5000ミリ秒 (5秒) 待機して、クロールするすべてのURLから応答を受け取ることができます。
オプションで、ヘッダーを追加するには、Add Headerをクリックします。次に、Keyフィールドに、コンテンツに必要なユーザーエージェントの名前を入力します。 Valueフィールドに、コンテンツで想定されるユーザーエージェントの値を入力します。このセキュリティ対策により、他のクローラーではなく、Searchクローラーのみがデータをクロールできるようになります。

たとえば、Keyとしてuser-agentを入力し、Valueとしてsitecorebotと入力します。
Click Save。

属性の値を抽出する

Webクローラーには、属性の値を抽出するためのさまざまな方法が用意されています。選択する方法は、値の場所とアクセス方法によって異なります。

手記

1回のクロールで複数のエンティティの値を抽出するには、Webクローラーを高度なWebクローラーに変換する必要があります。Webクローラーは、1つのエンティティの値のみを抽出できます。

属性の場合、次のような値を設定します。

Webページのヘッダーセクションのメタタグから抽出されます。
XMLドキュメントをトラバースして抽出します。
クローラーによってインデックス付けされたすべての項目で同一です。

構成を簡略化するために、Webクローラーは、XPathメソッドを使用してtype、url、name、およびdescriptionの値を抽出するように事前構成されています。 EXTRACTION TYPEドロップダウンリストで別のタイプを選択することで、いつでも方法を変更できます。

エンティティ内のすべての属性の値の抽出を編集または構成するには、次のタブで説明されている手順を使用します。

メタタグ

Webページのヘッダーセクションにあるメタタグから値を抽出するには、Meta Tag抽出方法を使用する必要があります。

属性の値を抽出するには、author Meta Tagメソッドを使用します。

左側のペインでAttribute Extractionをクリックし、Attribute Extractionセクションで Editをクリックします。
Attribute Extractionページのメニューバーで、 Add Attributeをクリックします。
属性セレクターで、値を抽出する属性の横にあるAdd をクリックし、下部にあるAddをクリックします。
設定する属性の横にあるTypeドロップダウンメニューで、Meta Tag

例えば、「 authorの横にあるMeta Tagをクリックします。
VALUEフィールドに、使用するメタタグまたはプロパティタグの名前を入力します。

たとえば、「 author」と入力します。

これを行うと、Searchはまず //meta@name='author'/@contentを作成して実行します。

この式から値を取得しない場合は、//meta@property='description'/@contentを作成して実行します。
Click Save。

XPath

XMLドキュメントの要素を走査して値を抽出するには、XPath抽出方法を使用する必要があります。

属性の値を抽出するには、name XPathメソッドを使用します。

Source Settingsページで、Attribute Extractionの横にある Editをクリックします。
抽出を設定する属性の横にあるExtraction Typeドロップダウンメニューをクリックし、XPathをクリックします。

たとえば、name属性の横にあるXPathをクリックします。
VALUEフィールドに、使用するXPath式を入力します。

たとえば、「//div[@class='wy-menu-vertical']/p」と入力します。これにより、ページの最初の<div>タグの<p>タグ内のテキストが、class値wy-menu-verticalに設定され、name属性の値として設定されます。
Click Save。

付け

このソースによってインデックス付けされたすべての項目の属性に同じ値を設定したい場合は、Fixed抽出方法を使用する必要があります。

たとえば、クローラーが特定のブランドの商品Brandインデックスを作成する場合、Fixedメソッドを使用して、クロールされたすべてのアイテムのbrand属性の値としてBrandを設定できます。

type属性に固定値を使用するには:

左側のペインでAttribute Extractionをクリックし、Attribute Extractionセクションで Editをクリックします。
編集する属性の横にあるExtraction Typeドロップダウンメニューをクリックし、Fixedをクリックします。

たとえば、type属性の横にあるFixedをクリックします。
VALUEフィールドに、この属性に使用する定数を入力します。

たとえば、「 commercial」と入力します。
Click Save。

抽出ロジックの検証

定義した属性抽出ロジックが予期した属性値になることを確認するには、構成を検証します。

属性抽出ロジックを検証するには:

左側のペインでAttribute Extractionをクリックし、Attribute Extractionセクションで Editをクリックします。
ページ上部のメニューバーで、Validateをクリックします。
検証ウィンドウのVALIDATION URLフィールドに、インデックスを作成するコンテンツのURLを入力します。

たとえば、www.bank.comのすべてのコンテンツにインデックスを付けるようにソースを設定する場合は、検証をテストするためのサンプルURLとしてwww.bank.com/commercial/loansと入力できます。
必要に応じて、Add Validation URLをクリックして、さらにURLを入力します。

例えば、www.bank.comの例を続けると、Webサイトのcommercial、personal、mortgageセクションからサンプルURLを入力できます。または、Webサイトのあるセクションに多数の画像があり、別のセクションにビデオがあることがわかっている場合は、各セクションから1つのURLを入力できます。

手記

インデックスを作成するすべてのコンテンツで抽出ロジックが機能するように、複数のURLを入力することをお勧めします。ページ構造とコンテンツタイプが異なるURLを入力します。
Click Validate。

各URLの下には、属性と対応する値のリストが表示されます。

手記

属性の横にエラーが表示された場合は、現在の抽出ロジックがそのURLに対して機能していないことがわかり、編集が必要になる場合があります。
検証ウィンドウを閉じるには、Close をクリックします。
必要に応じて、属性抽出ロジックを更新し、5までの2手順を繰り返して、新しいロジックがすべてのサンプルURLのすべての属性値を返すかどうかを確認します。
Click Save。

クローラーのスケジュール設定

クローラーをスケジュールするには:

左側のペインでCrawler Schedulerをクリックし、Crawler Schedulerセクションで Editをクリックします。
STARTSドロップダウンリストで、次からオプションをクリックします。
- Anytime - スケジュールをできるだけ早く開始したい場合。
- Specific Date - クロールを特定の日付に開始する場合。また、日付ピッカーで日付を選択する必要があります。
(オプション)REPEATドロップダウンリストで、一度だけクロールするにはDOES NOT REPEATをクリックし、ページを閉じるにはSaveをクリックします。
クローラーをスケジュールに従って実行するには、REPEATドロップダウンメニューでYesをクリックします。
Repeats everyのドロップダウンリストで、クロールの頻度を定義するには、次の手順を実行します。
- 繰り返し回数ドロップダウンリストで、1から99までの値をクリックします。
- 間隔ドロップダウンリストで、hours、days、weeksから値をクリックします。
手順2で特定の日付にスケジュールを開始することを選択した場合は、クロールの開始時刻を定義するには、RUN TIMEドロップダウンリストで開始時刻をクリックします。
END DATEドロップダウンメニューで、クローラースケジュールの終了を設定するには、次からオプションをクリックします。
- Never - スケジュールを無期限に継続したい場合。
- Specific Date - スケジュールを特定の日付に停止する場合。また、日付ピッカーで日付を選択する必要があります。
Click Save。

ソースへの更新の発行

最初のクロール項目とインデックス項目を開始するには、ソースを発行する必要があります。また、ソースに変更を加えるたびにソースを公開する必要があります。

ソースを公開するには:

メニューバーで、Sourcesをクリックします。
公開するソースClick、Publishをクリックします。
Publish Sourceダイアログで、このソースの再クロールを開始するSearchは、Trigger source recrawl after publishingチェックボックスをオンにします。
Click Publish。

この記事を改善するための提案がある場合は、お知らせください!