インデックス作成を構成する

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

Sitecore Searchでは、使用するインデックス作成方法のタイプを選択した後、タイプごとにソースを設定する必要があります。

このトピックでは、特定のコンテンツ タイプ (Webクローラー、API Webクローラー、APIプッシュ、PDF、ローカライズされたクローラー、ローカライズされたプッシュ ソース) に対してさまざまなソースの種類を構成する方法を説明するチュートリアルを紹介し、APIリンクします。

先端

Sitecore Searchでソースを構成する方法については、このビデオの概要をご覧ください。

詳細と複雑さは異なりますが、すべてのソースには次の広範な構成要素があります。

  • インデックスを作成するコンテンツ - トリガーと呼ばれます。この設定を使用して、インデックスを作成するコンテンツをSearchに正確に指示します。たとえば、サイトマップ上のすべてのリンクをインデックスに登録するか、指定したURLから開始してハイパーリンクをたどるようにSearchに指示できます。

  • コンテンツのインデックスを作成する方法 - ドキュメント抽出ツールと呼ばれます。この設定を使用して、元のコンテンツから情報の一部を抽出し、それらを属性値として割り当てる方法をSearchに指示します。たとえば、abstract属性の値については、XPath式 //*contains(@class, "abstract")//pを使用して、クラスabstractを持つ要素の子孫である最初の<p>の値を抽出するようにSearch指示できます。

  • インデックス付きコンテンツを更新する方法 - クローラースケジュールを構成 して、インデックスドキュメントに元のコンテンツの最新バージョンが反映されるようにすることができます。さらに、インデックス ドキュメントに増分変更を加える場合は、増分更新を有効にすることができます。これにより、開発者はIngestion APIを使用してインデックス ドキュメントを更新できます。

  • その他の設定 - これらは、ビジネス要件に依存するオプションの構成です。

メモ

ソースについては、以下を構成する必要があります。

  • インデックス作成ジョブを開始するトリガー。

  • インデックスが最新であることを確認するためのクローラーのスケジュール。

  • コンテンツからメタデータを解析するためのドキュメント抽出ツール。

ビジネス要件に応じたオプションの設定を次に示します。

  • 一般的なクローラー設定 - クロールできるドメイン、回避するURL、使用するユーザーエージェントなどを含む 一連の設定 。Sitecore Searchには、通常、ほとんどの初期設定で十分なデフォルト値が用意されていますが、これらの設定は要件に合わせて変更できます。

    例えば、クロールされる最大URL数を1000から3000に変更できます。

  • Locale関連の設定 - 複数のロケールにまたがるコンテンツにインデックスを付け る必要がある場合は、このソースで 使用可能なロケール を定義する必要があります。また、ロケール抽出器(各URLからロケールを取得する方法をSearchに指示する構成)を定義する必要もあります。各インデックス文書にはロケールが添付されている必要があるため、これは重要です。

    たとえば、ja-JPfr-FRを使用可能なロケールとして追加し、コンテンツからこれらのロケールを抽出する方法を構成できます。

  • 認証関連の設定 - コンテンツにアクセスする前に認証が必要な場合は、Crawler authentication設定を構成する必要があります。

    たとえば、コンテンツにアクセスする前にユーザー名とパスワードが必要な場合は、browser認証を設定します。

  • タグ - カスタム タグを作成する機能、インデックスドキュメントのセットに持つ属性を正確に指定するために使用できるエンティティベースの構成。デフォルトでは、Sitecore Searchエンティティごとに1つのタグを作成します。さらにタグを作成できます。

    たとえば、内部と外部の両方のブログ コンテンツを含むWebサイトを管理するには、Blogエンティティの下にタイプごとに個別のタグを作成できます

  • インデックスを作成する追加コンテンツ - インデックスを作成するすべての項目がtriggerにカバーされていないことがわかった場合は、クロールする追加のURLを生成する方法をSearch指示する構成である リクエスト抽出器を定義できます。

    たとえば、トリガーがJSONを返すAPIクローラーを使用する場合、返されたJSONを使用してAPIエンドポイント (URL) を生成する リクエスト抽出器を定義 できます。

大事な

インデックス作成方法を選択するときは、クローラータイプの詳細な仕様を参照してください。

検索可能なコンテンツのインデックス作成を正常に行うには、以下の インデックス作成のベストプラクティス に従ってください。

この記事を改善するための提案がある場合は、 お知らせください!