インデックス作成を構成する

APIクローラーを構成する

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

Sitecore Search APIクローラーは、JSONコンテンツを処理するために特別に設計された強力なクローラーです。ソースコンテンツにアクセスするための認証の必要性、複数の言語でのインデックスドキュメントの作成、JavaScriptを使用した属性値の抽出など、複雑なユースケースをサポートします。

APIクローラーは、URLまたはAPIエンドポイントにアクセスし、各URLまたはエンドポイントのコンテンツにインデックスを付けることによって機能します。

大事な

インデックス作成方法を選択するときは、クローラータイプの詳細な仕様を参照してください。

これらのインデックス作成のベストプラクティスに従って、完全なWebサイトを正常にクロールしたり、頻繁に新しい更新をクロールしたりします。

このチュートリアルでは、次の方法について説明します。

メモ

元のコンテンツがクローラがアクセスする前に認証が必要な場合は、クローラー認証設定を構成します。たとえば、元のコンテンツには、GUIベースのユーザー名とパスワード、または要求ヘッダーのアクセストークンまたはキーが必要になる場合があります。これは、ソースの作成後いつでも実行できます。

APIクローラーソースの作成

ソースを作成するには:

メニューバーで、Sourcesをクリックします。
Click Add Source。
SOURCE NAMEフィールドに、ソースの名前を入力します。
DESCRIPTIONフィールドに、構成するソースを説明する行を数行入力します。
CONNECTORドロップダウンリストで、API Crawlerをクリックします。
Click Save。エラーがない場合、Searchは新しいソースを作成します。

クローラー設定を構成する

クローラー設定を構成して、APIクローラーの有効範囲を定義する重要な高レベルの構成を定義します。

APIクローラー設定を構成するには:

Click Sourcesして、作成したソースをクリックします。
Source SettingsページのAPI Crawler Settingsの横にあるEdit をクリックします。
クローラーがクロールするURLの深さと数を設定するには:
- MAX DEPTHフィールドに、クローラーがURLにたどるレベルの最大数を入力します。
  
  たとえば、「 5」と入力します。
- MAX URLSフィールドに、クローラーがクロールするURLの最大数を合計で入力します。クローラーがURLを省略しないように、大きな数値を入力します。
  
  たとえば、「 5000」と入力します。
並列にクロールするワーカーの数と、リクエスト間のオプションの遅延を設定するには:
- コンテンツを同時にクロールし、インデックスを作成するスレッド (ワーカー) の数を定義するには、PARALLELISM (WORKERS)ドロップダウンメニューの値をクリックします。
  
  たとえば、2つのワーカーのみを並行してクロールするには、「 2 」と入力します。これにより、デフォルトの5ワーカーよりも少ないメモリを使用します。
- オプションで、ワーカーを1つだけ構成した場合は、クローラーがインデックスを作成する次のURLにアクセスするまでの待機時間を定義できます。これを行うには、DELAY (MS)フィールドに時間をミリ秒単位で入力します。
  
  たとえば、「 3」と入力します。
オプションで、ヘッダーを追加するには、Add Headerをクリックします。次に、Keyフィールドに、コンテンツに必要なユーザーエージェントの名前を入力します。 Valueフィールドに、コンテンツで想定されるユーザーエージェントの値を入力します。このセキュリティ対策により、他のクローラーではなく、Searchクローラーのみがデータをクロールできるようになります。

たとえば、Keyとしてuser-agentを入力し、Valueとしてsitecorebotと入力します。
必要に応じて、クローラーがナビゲーションCookieを受け入れないようにする場合は、Additional SettingsセクションでENABLE NAVIGATION COOKIES DURING CRAWLINGをオフにします。

ナビゲーションCookieは、クローラーのパスを追跡し、アクセスしたURLを記録します。場合によっては、Cookieがクローラーを誤解させ、以前にアクセスしたURLのインデックスを再作成することがあります。ただし、Cookieは、その後のアクセスにCookieを必要とするWebサイト、特に認証が必要なWebサイトにとって重要です。
Click Save。

トリガーを構成する

高度なWebクローラーがインデックスを作成するコンテンツを検索するための開始点を提供するトリガーを構成します。次のタイプのトリガーを使用できます。

GraphQL APIエンドポイントを使用してリクエストトリガーを設定するには:

Source SettingsページのTriggersの横にあるEdit をクリックします。
Click Add Trigger。
Trigger Typeドロップダウンリストで、Requestをクリックします。

必要に応じて、Bodyフィールドに要求の本文を入力します。

手記

POSTまたはPatch要求を使用する場合は、要求本文を入力する必要があります。

たとえば、次のようにします。

{"query":"query getItem($path: String) {\n  item(language: \"en\", path: $path) {id path children {results {name}\n    }\n  }\n}\n","variables":{"path":"/sitecore/content/mvpsite"}}

オプションで、ヘッダーを設定するには、Add Headerをクリックします。次に、Keyフィールドに、コンテンツに必要なユーザーエージェントの名前を入力します。 Valueフィールドに、コンテンツで想定されるユーザーエージェントの値を入力します。

たとえば、Keyとしてuser-agentを入力し、Valueとしてsitecorebotと入力します。

手記

このセキュリティ対策により、他のクローラーではなく、Searchクローラーのみがデータをクロールできるようになります。
必要に応じて、Methodドロップダウンメニューで、使用するHTTPメソッドをクリックします。デフォルトのGETが選択されています。

例えば、「 POST」をクリックします。
URLフィールドに、トリガーとして使用するAPIエンドポイントを入力します。

たとえば、https://edge.sitecorecloud.io/api/graphql/v1

手記

Sitecore Searchにトリガー応答が表示されません。ただし、トリガーの応答を使用する要求抽出器を後で構成するため、この点に留意すると便利です。

この例では、トリガーは次のJSONレスポンスを返します。

{
    "data": {
        "item": {
            "id": "xxx",
            "path": "/sitecore/content/MvpSite",
            "children": {
                "results": [
                    {
                        "name": "Home"
                    },
                    {
                        "name": "MVP Repository"
                    },
                    {
                        "name": "Shared Content"
                    },
                    {
                        "name": "Settings"
                    }
                ]
            }
        }
    }

要求抽出器を構成する

要求抽出器は、クローラーがクロールする追加のURLを作成します。

Request抽出器は、APIクローラーを構成するときに非常に重要です。APIクローラーの場合、トリガーはURLではなくJSONを返します。これを処理するには、トリガーの出力を使用し、APIクローラーがクロールするURLまたはAPIエンドポイントを返すようにリクエスト抽出器を構成します。

この例では、トリガーが出力するJSONオブジェクトを使用し、APIエンドポイントを生成するリクエスト抽出プログラムを構成する必要があります。

JSONオブジェクトを入力として使用し、APIエンドポイントのリストを返すリクエスト抽出器を作成するには、次のようにします。

Click Sourcesして、作成したソースを選択します。
Source SettingsページのRequest Extractorsの横にあるEdit をクリックします。
要求抽出器を作成するには、Document Extractorsページで次の操作を行います。
- Nameフィールドに、抽出器のわかりやすい名前を入力します。
  
  たとえば、次のように入力します。 Sitecore video URLs.
- オプションで、URLs To Matchフィールドで、使用する式のTYPEを選択し、その式のVALUEを入力します。
  
  たとえば、次の形式のすべてのURLをクロールするには、 <some text>/homeloans/<some text>、Glob Expressionを選択し、VALUEを **/homeloans/**.* として入力します。

JS Sourceフィールドに、URLのリストを返すJavaScript関数を貼り付けます。

手記

この関数はCheerio構文を使用し、オブジェクトの配列を返す必要があります。

たとえば、次のように貼り付けます。

function extract(request, response) {
    requests = [];
    if (response.body && response.body.data && response.body.data.item && response.body.data.item.children) {
        requests = response.body.data.item.children.results.map((e, i) => {
            name = e.name;
            path = JSON.parse(request.body).variables.path + "/" + name;
            return {
                url: request.url,
                method: 'POST',
                headers: {
                    'content-type': ['application/json']
                },
                body: JSON.stringify({
                    "query": "query getItem($path: String) {item(language: \"en\", path: $path) {id path rendered children {results {name}}}}",
                    "operationName": "getItem",
                    "variables": {
                        "path": path
                    }
                })
            };
        });
    }

    return requests;
}

この関数は、次のAPIエンドポイントを返します。

[
    {
        "url": "https://edge.sitecorecloud.io/api/graphql/v1",
        "method": "POST",
        "headers": {
            "content-type": [
                "application/json"
            ]
        },
        "body": "{"query":"query getItem($path: String) {item(language: \\"en\\", path: $path) {id path rendered children {results {name}}}}","operationName":"getItem","variables":{"path":"/sitecore/content/Sugcon/SugconEuSxa/Home"}}"
    },
    {
        "url": "https://edge.sitecorecloud.io/api/graphql/v1",
        "method": "POST",
        "headers": {
            "content-type": [
                "application/json"
            ]
        },
        "body": "{"query":"query getItem($path: String) {item(language: \\"en\\", path: $path) {id path rendered children {results {name}}}}","operationName":"getItem","variables":{"path":"/sitecore/content/Sugcon/SugconEuSxa/Media"}}"
    },
    {
        "url": "https://edge.sitecorecloud.io/api/graphql/v1",
        "method": "POST",
        "headers": {
            "content-type": [
                "application/json"
            ]
        },
        "body": "{"query":"query getItem($path: String) {item(language: \\"en\\", path: $path) {id path rendered children {results {name}}}}","operationName":"getItem","variables":{"path":"/sitecore/content/Sugcon/SugconEuSxa/Data"}}"
    },
    .....
]

Click Save。

ドキュメント抽出器を構成する

各content itemから属性値を抽出する方法を指定するようにdocument extractorを構成します。ドキュメント抽出器は、要求抽出器が生成するURLまたはAPIエンドポイントをクロールします。

次のタイプのドキュメント抽出器を使用できます。

手記

APIクローラーの場合は、JavaScriptエクストラクタまたはJSONPathドキュメントエクストラクタを設定できます。

使用するドキュメント抽出器を決定するときは、次の点に留意してください。

トリガーまたはリクエスト抽出器の出力がJSONの場合は、JSONPath文書抽出器またはJavaScript文書抽出器を使用できます
トリガーまたは要求抽出器の出力がXMLの場合は、JavaScript文書抽出器を使用します。

URLをJavaScript関数と一致させるJSONPathドキュメント抽出器を作成するには:

メニューバーで、Sourcesをクリックします。
作成したソースを選択します。
Source SettingsページのDocument Extractorsの横にあるEdit をクリックします。
ドキュメント抽出ツールを作成するには、Document Extractorsページで次の操作を行います。
- Nameフィールドに、抽出器のわかりやすい名前を入力します。
  
  たとえば、「 Sitecore cloud」と入力します。
- Extractor Typeドロップダウンメニューで、JSONPathをクリックします。
- オプションで、この抽出ツールのロジックが特定のパターンに一致するURLにのみ適用されるようにするには、URLs to Matchを設定します。これを行うには、URLs To Matchフィールドで Add Matcherをクリックし、使用する式のTYPEを選択し、その式のVALUEを入力します。
  
  たとえば、TYPEドロップダウンメニューでJSをクリックし、次の式を入力すると、抽出器が応答の値がbody.data.item.renderedのAPIエンドポイントからのみ属性を抽出するようにJavaScriptを使用します。
  function match(request, response) { return response.body.data.item.rendered != null && response.body.data.item.rendered.sitecore.route.placeholders['headless-main'].length > 0; }
Taggersセクションで、Add Taggerをクリックします。次に、タグエディターで、Tagドロップダウンメニューでタグを選択します。たとえば、contentを選択します。
手記
ドキュメント抽出ツールでは、それぞれが一意のタグにリンクされている複数のタガーを作成できます。このようにして、各タガーは次のようになります。
インデックスドキュメントのセットを生成します。

各ルールが1つの属性の抽出ロジックを定義するように、複数のルールを持つことができます。
たとえば、5つのルールを持つ1つのタガー one 、それぞれがfiveの属性を持つ一連のドキュメントを生成します。

それぞれ1つのルールを持つ3つのタガーは、それぞれがone属性を持つthreeセットのドキュメントを生成します。
タグエディタで、次の詳細を入力して属性を抽出します。
- Attributeドロップダウンメニューで、設定する属性をクリックします。
  
  例えば、「 Description」をクリックします。
- Value typeドロップダウンメニューで、属性値を固定値にするか式にするかを選択します。
  
  例えば、「 Expressions」をクリックします。
- EXPRESSIONフィールドに、属性値を生成するJSONPath式を入力します。
  
  たとえば、..placeholders'headless-main'..fields.Descriptionキーのからdescriptionの値を取得するには、次のように入力します。
  ..placeholders['headless-main']..fields.Description.value
オプションで、属性値を取得する複数の方法を設定するには、 Add Selectorをクリックします。次に、2番目のセレクターのExpressionフィールドに、属性値を生成するJSONPath式を入力します。

たとえば、2番目のオプションとして、..placeholders'headless-main'..fields.Textタグからdescriptionの値を取得します。これを取得するには、次のJSONPath式を入力します。
..placeholders['headless-main']..fields.Text.value
手記

複数のセレクターがある場合、Searchはそれらを時系列で実行し、結果を与える式に到達すると停止します。
他の属性の抽出方法を構成するには、Add Rule をクリックし、手順5と6を繰り返します。

たとえば、description属性の抽出方法を構成したので、title、subtitle、およびimage属性を抽出する方法を構成できます。
タグエディタで、Saveをクリックします。
(オプション)別のタグの属性を抽出するには、 Add Taggerをクリックし、Tagドロップダウンメニューでタグをクリックして、手順5から8を繰り返します。
Document Extractorsページで、Saveをクリックします。

スキャンのスケジュール

クローラースケジュールを作成するには:

メニューバーで、Sourcesをクリックします。
クロールをスケジュールするソースClickをクリックします。
Source Settingsページで、Crawler Schedulerの横にある Editをクリックします。
Searchがスケジュールされたクロールを開始するタイミングを設定するには、STARTSドロップダウンメニューの値をクリックします。スケジュールをできるだけ早く開始する場合は、Anytimeを選択します。特定の日付にクロールを開始する場合は、Specific Dateをクリックし、日付ピッカーで日付をクリックします。
クロールを定期的に実行するには、REPEATドロップダウンメニューでYesをクリックします。

先端

クロールを将来の日付に1回だけ実行するようにスケジュールするには、REPEATドロップダウンメニューでDOES NOT REPEATをクリックします。この構成では、クロールは手順4で選択した日付に実行され、繰り返されません。
クロールの頻度を定義するには、Repeats everyフィールドの横にある値をクリックします。間隔として1から99までの任意の値をクリックし、時間の単位としてdays、weeks、または( productionドメインのみ) hoursのいずれかをクリックできます。たとえば、クロールを4週間ごとに実行する場合は、4をクリックしてweeksします。
クロールを開始する時刻を定義するには、RUN TIMEドロップダウンメニューで値をクリックします。たとえば、クロールを真夜中に開始する場合は、12:00 AMをクリックします。表示される時刻は、タイムゾーンに合わせて自動的に調整されます。
クローラースケジュールを終了するタイミングを設定するには、END DATEドロップダウンメニューの値をクリックします。スケジュールを無期限に続行する場合は、Neverを選択します。クロールを特定の日付に終了する場合は、Specific Dateをクリックし、日付ピッカーで日付をクリックします。
Click Save。

ソースへの更新の発行

最初のスキャンとインデックスを開始するには、ソースを公開する必要があります。

ソースを公開するには:

メニューバーで、Sourcesをクリックします。
公開するソースClick、Publishをクリックします。
Publish Sourceダイアログで、このソースの再クロールを開始するSearchは、Trigger source recrawl after publishingチェックボックスをオンにします。
Click Publish。

この記事を改善するための提案がある場合は、お知らせください!