インデックス作成を構成する

高度なWebクローラーを構成する

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

Sitecore Search高度なWebクローラーは、コンテンツをクロールしてインデックスに追加する強力なクローラーです。ソースコンテンツにアクセスするための認証の必要性、複数の言語でのインデックスドキュメントの作成、JavaScriptを使用した属性値の抽出など、複雑なユースケースを処理できます。

大事な

インデックス作成方法を選択するときは、クローラータイプの詳細な仕様を参照してください。

ベストプラクティスのインデックス作成や更新のクロールを正常に行うには、以下のベストプラクティスに従ってください。

このチュートリアルでは、次の方法について説明します。

メモ

元のコンテンツがクローラがアクセスする前に認証が必要な場合は、クローラー認証設定を構成します。たとえば、元のコンテンツには、GUIベースのユーザー名とパスワード、または要求ヘッダーのアクセストークンまたはキーが必要になる場合があります。これは、ソースの作成後いつでも実行できます。

高度なWebクローラーソースを作成する

ソースを作成するには:

メニューバーで、Sourcesをクリックします。
Click Add Source。
SOURCE NAMEフィールドに、ソースの名前を入力します。
DESCRIPTIONフィールドに、構成するソースを説明する行を数行入力します。
CONNECTORドロップダウンリストで、Web Crawler (Advanced) をクリックします。
Click Save。エラーがない場合、Searchは新しいソースを作成します。

クローラー設定を構成する

Webクローラー設定の構成には、許可されるドメインと最大URLの定義が含まれます。

クローラー設定を構成するには:

メニューバーでSourcesをクリックし、作成したソースをクリックします。
左側のペインでWeb Crawler Settingsをクリックし、Web Crawler Settingsセクションで Editをクリックします。
必要に応じて、ALLOWED DOMAINSフィールドに、クローラーが保持するドメインを入力します。これは、WebクローラーがSitecoreドキュメントドメインのみをクロールし、リンクされている可能性のある外部サイトをクロールしないようにするために行います。

たとえば、「 www.doc.sitecore.com」と入力します。
クローラーがクロールするURLの深さと数を設定するには:
- MAX DEPTHフィールドに、クローラーがURLにたどるレベルの最大数を入力します。
  
  たとえば、「 5」と入力します。
- MAX URLSフィールドに、クローラーがクロールするURLの最大数を合計で入力します。クローラーがURLを省略しないように、大きな数値を入力します。
  
  たとえば、「 5000」と入力します。
特定のURLパターンをクローラーのスコープから除外するには、Add Exclusion Patternをクリックします。次に、TYPEドロップダウンメニューで、Glob expressionまたはRegular Expressionを選択します。 VALUEフィールドに、除外するURLに一致する式を入力します。

たとえば、クローラーが検索ページをクロールできないようにするには、次のGlob式を入力します。
**/search/**
並列にクロールするワーカーの数と、リクエスト間のオプションの遅延を設定するには:
- コンテンツを同時にクロールし、インデックスを作成するスレッド (ワーカー) の数を定義するには、PARALLELISM (WORKERS)ドロップダウンメニューの値をクリックします。
  
  たとえば、2つのワーカーのみを並行してクロールするには、「 2 」と入力します。これにより、デフォルトの5ワーカーよりも少ないメモリを使用します。
- オプションで、ワーカーを1つだけ構成した場合は、クローラーがインデックスを作成する次のURLにアクセスするまでの待機時間を定義できます。これを行うには、DELAY (MS)フィールドに時間をミリ秒単位で入力します。
  
  たとえば、「 3」と入力します。
TIMEOUTフィールドに、クローラーが応答の取得を待機する時間をミリ秒単位で入力します。

たとえば、「 5000」と入力します。これにより、クローラーは5000ミリ秒 (5秒) 待機して、クロールするすべてのURLから応答を受け取ることができます。
オプションで、ヘッダーを追加するには、Add Headerをクリックします。次に、Keyフィールドに、コンテンツに必要なユーザーエージェントの名前を入力します。 Valueフィールドに、コンテンツで想定されるユーザーエージェントの値を入力します。このセキュリティ対策により、他のクローラーではなく、Searchクローラーのみがデータをクロールできるようになります。

たとえば、Keyとしてuser-agentを入力し、Valueとしてsitecorebotと入力します。
必要に応じて、クローラーがナビゲーションCookieを受け入れないようにする場合は、Additional SettingsセクションでENABLE NAVIGATION COOKIES DURING CRAWLINGをオフにします。

ナビゲーションCookieは、クローラーのパスを追跡し、アクセスしたURLを記録します。場合によっては、Cookieがクローラーを誤解させ、以前にアクセスしたURLのインデックスを再作成することがあります。ただし、Cookieは、その後のアクセスにCookieを必要とするWebサイト、特に認証が必要なWebサイトにとって重要です。
必要に応じて、クローラーがページソースに加えてページ上のJavaScriptを待機してクロールする場合は、Additional SettingsセクションでRender JavaScriptをオンにします。
Click Save。

トリガーを構成する

高度なWebクローラーのトリガーを構成すると、インデックスを作成するコンテンツを検索するための出発点が得られます。この手順で説明されているように、要求トリガーの使用に加えて、次のタイプのトリガーを使用できます。

JavaScript
RSSの
サイトマップ
サイトマップインデックス

手記

サイトマップトリガーは、サイトマップ内の各URLの最終更新日(lastmod)フィールドを利用します。これにより、インデックス作成の速度が向上し、コンテンツ更新の効率が向上します。

要求トリガーを設定するには:

Source Settingsページで、Triggersの横にあるEdit をクリックします。
Click Add Trigger。
Trigger Typeドロップダウンフィールドで、Requestを選択します。
必要に応じて、Bodyフィールドに要求の本文を入力します。
オプションで、ヘッダーを設定するには、Add Headerをクリックし、KeyフィールドとValueフィールドに値を入力します。

たとえば、Keyとしてuser-agentを入力し、Valueとしてsitecorebotと入力します。
オプションで、Methodドロップダウンメニューで、POST、PUT、またはPATCHをクリックします。デフォルトでは、GETが選択されています。
URLフィールドに、トリガーとして使用するURLを貼り付けます。

たとえば、https://dev.sitecore.net/

ドキュメント抽出器を作成する

ドキュメント抽出器を設定すると、1つまたは複数のエンティティの属性の値を抽出する方法が指定されます。

この手順で説明するXPathドキュメント抽出器の種類に加えて、次のものを使用できます。

CSSドキュメントエクストラクタ
JavaScriptドキュメントエクストラクタ

XPathドキュメント抽出ツールを作成するには:

メニューバーで、Sourcesをクリックします。
高度なWebクローラーを選択します。
Source SettingsページのDocument Extractorsの横にある Editをクリックします。
ドキュメント抽出ツールを作成するには、Document Extractorsページで次の操作を行います。
- Nameフィールドに、この抽出器のわかりやすい名前を入力します。
  
  たとえば、「 Sitecore dev portal XPath extractor」と入力します。
- Extractor Typeドロップダウンメニューで、XPathをクリックします。
- オプションで、この抽出ツールのロジックが特定のパターンに一致するURLにのみ適用されるようにするには、URLs to Matchを設定します。これを行うには、URLs To Matchフィールドで Add Matcherをクリックし、使用する式のTYPEを選択し、その式のVALUEを入力します。
属性の抽出方法を定義するには、Taggersセクションで、最初のタグの横にある Editをクリックします。通常、contentタグです。

いくつかの属性と対応するXPath抽出式のリストが表示されます。Searchには、構成に役立つこれらのサンプル属性と式が用意されています。
手記
ドキュメント抽出ツールでは、それぞれが一意のタグにリンクされている複数のタガーを作成できます。このようにして、各タガーは次のようになります。
インデックスドキュメントのセットを生成します。

各ルールが1つの属性の抽出ロジックを定義するように、複数のルールを持つことができます。
たとえば、5つのルールを持つ1つのタガー one 、それぞれがfiveの属性を持つ一連のドキュメントを生成します。

それぞれ1つのルールを持つ3つのタガーは、それぞれがone属性を持つthreeセットのドキュメントを生成します。
このエクストラクタで不要なサンプル属性を削除するには、Delete をクリックします。
サンプル属性の構成を編集するには、Edit をクリックし、変更を加えます。
新しい属性の値を抽出する方法を設定するには、Add Rule をクリックし、次の詳細を入力します。
- Attributeドロップダウンメニューで、設定する属性を選択します。
  
  例えば、「 Abstract」をクリックします。
- Value typeドロップダウンメニューで、属性値を固定値にするか式にするかを選択します。
  
  例えば、「 Expressions」をクリックします。
- EXPRESSIONフィールドに、属性値を生成するXPath式を入力します。
  
  たとえば、abstractという単語を含むclass属性に含まれるすべてのp要素のテキストからabstractという属性の値を取得する場合は、次のXPath式を入力します。
  //*[contains(@class, "abstract")]//p
オプションで、属性値を取得する複数の方法を設定するには、 Add Selectorをクリックします。次に、2番目のセレクターのExpressionフィールドに、属性値が得られるXPath式を入力します。

たとえば、2番目のオプションとして、topic-contentのdivclass内にあるすべてのp要素のテキストからabstractを取得します。これを行うには、次のXPath式を入力します。
//div[@class="topic-content"]//p
複数のセレクターがある場合、Searchはそれらを時系列で実行し、結果を与える式に到達すると停止します。
タグエディタで、Saveをクリックします。次に、Document ExtractorsページでSaveをクリックします。
必要に応じて、別のタグの属性を抽出するには、「 Add Tagger」をクリックし、Tagドロップダウンメニューでタグをクリックします。次に、手順7から9を繰り返します。
Document Extractorsページで、Saveをクリックします。

クローラーのスケジュール設定

クローラーをスケジュールするには:

左側のペインでCrawler Schedulerをクリックし、Crawler Schedulerセクションで Editをクリックします。
STARTSドロップダウンリストで、次からオプションをクリックします。
- Anytime - スケジュールをできるだけ早く開始したい場合。
- Specific Date - クロールを特定の日付に開始する場合。また、日付ピッカーで日付を選択する必要があります。
(オプション)REPEATドロップダウンリストで、一度だけクロールするにはDOES NOT REPEATをクリックし、ページを閉じるにはSaveをクリックします。
クローラーをスケジュールに従って実行するには、REPEATドロップダウンメニューでYesをクリックします。
Repeats everyのドロップダウンリストで、クロールの頻度を定義するには、次の手順を実行します。
- 繰り返し回数ドロップダウンリストで、1から99までの値をクリックします。
- 間隔ドロップダウンリストで、hours、days、weeksから値をクリックします。
手順2で特定の日付にスケジュールを開始することを選択した場合は、クロールの開始時刻を定義するには、RUN TIMEドロップダウンリストで開始時刻をクリックします。
END DATEドロップダウンメニューで、クローラースケジュールの終了を設定するには、次からオプションをクリックします。
- Never - スケジュールを無期限に継続したい場合。
- Specific Date - スケジュールを特定の日付に停止する場合。また、日付ピッカーで日付を選択する必要があります。
Click Save。

ソースへの更新の発行

最初のクロール項目とインデックス項目を開始するには、ソースを発行する必要があります。また、ソースに変更を加えるたびにソースを公開する必要があります。

ソースを公開するには:

メニューバーで、Sourcesをクリックします。
公開するソースClick、Publishをクリックします。
Publish Sourceダイアログで、このソースの再クロールを開始するSearchは、Trigger source recrawl after publishingチェックボックスをオンにします。
Click Publish。

この記事を改善するための提案がある場合は、お知らせください!