1. インデックス項目

クローラー設定を構成する

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

クローラー設定では、ソースのスコープを定義します。これには、クローラーがクロールできるドメイン、回避する必要があるURL、クローラーが到達する最大URLの深さなどが含まれます。

メモ

1つのWebサイトからデータをインデックスに登録するには、1つのクローラーを使用するのがベスト プラクティスです。メタデータを異なる方法で保存する可能性のある記事、ページ、PDF、およびその他のドキュメント タイプのデータをインデックス化するには、複数のドキュメント抽出ツールをクローラーに適用することをお勧めします。

クローラーを構成するには、次の設定を使用します。

設定

形容

ALLOWED DOMAINS

クローラーでクロールしてインデックスを作成するドメイン。通常、クローラーでクロールする最上位ドメインを入力します。

たとえば、クローラーがドキュメントSitecoreのみにインデックスを付ける場合は、許可されたドメインとしてwww.sitecore.comではなくdoc.sitecore.comと入力します。

許可されたドメインを定義すると、クローラーがサードパーティのコンテンツにインデックスを付けることができなくなります。たとえば、元のコンテンツに外部のソーシャル メディア サイトにリンクするブログがあるとします。許可されたドメインを定義すると、クローラーはブログ ページのインデックスを作成し、ソーシャル メディア サイトへのリンクを無視して、次のURLに移動します。

許可されたドメインを複数追加できます。

デフォルト: なし。これは、クローラーが検出したすべてのドメインをクロールすることを意味します。

MAX DEPTH

クローラーが1つのURLでたどるリンクの最大数。

たとえば、最大深度が3であるとします。クローラーは、深さレベル1のwww.sitecore.comから開始し、次に深さレベル2のwww.sitecore.com/productsに移動し、次に深さレベル3のwww.sitecore.com/products/content-cloudに移動します。クローラーは、最大深さの3に達しているため、最後のページでハイパーリンクを開きません。

デフォルト:

  • 0サイトマップまたはサイトマップインデックストリガーを持つウェブクローラーソースの場合。

  • 2他のすべてのソースについて。

MAX URLS

クロールするURLの最大数 (合計)。

デフォルト:

  • 10000 APIクローラーの場合。

  • 1000他のすべてのクローラーの場合。

EXCLUSION PATTERNS

クローラーにインデックスを付けたくないURLを定義するGlobまたは正規表現。複数の除外パターンを作成できます。

デフォルト: なし

PARALLELISM (WORKERS)

コンテンツを同時にクロールしてインデックスを作成するスレッド (ワーカー) の数。

より多くのワーカーがコンテンツのインデックス作成を高速化する一方で、より多くのリソースを使用します。

デフォルト: 5

DELAY (MS)

時間 (ミリ秒単位) は、クローラーがインデックスを作成する次のURLにアクセスする前に待機する必要があります。

この設定を使用してクローラーのリクエストを調整し、元のコンテンツをホストするリソースに過負荷がかかる可能性を防ぐことができます。

手記

遅延を定義するには、PARALLELISM (WORKERS)1に設定します。各ワーカーは独立して動作するため、複数のワーカーが存在する場合は遅延を設定することはできません。

デフォルト: 0、または遅延なし。

TIMEOUT

時間 (ミリ秒単位) は、クローラーが各URLまたはドキュメントから応答を取得するのを待機します。タイムアウト期間が経過すると、クローラーはそのURLまたはドキュメントにインデックスを付けず、次のURLまたはドキュメントに移動します。

デフォルト:

  • 60000サイトマップまたはサイトマップインデックストリガーを持つウェブクローラーの場合。

  • 10000他のすべてのクローラーの場合。

HEADERS

クローラーがWebサイトをクロールするときに使用するユーザー エージェント。

セキュリティのために、クローラーのユーザーエージェントを設定し、このユーザーエージェントをホワイトリストに登録します。これにより、他のボットがサイトをクロールするのを防ぎます。

keyvalueの値を入力します。たとえば、keyuser-agentとして入力し、valuesitecorebotとして入力します。

デフォルト: 空。

ENABLE NAVIGATION COOKIES DURING CRAWLING

クローラーがWebサイトによって設定されたナビゲーションCookieを受け入れるかどうかを制御します。これらのCookieは、ユーザー (ここではクローラー) のパスを追跡し、訪問したURLを記録します。

これらのCookieを無効にする理由の1つは、クローラーが誤解されて以前にアクセスしたURLのインデックスを再作成しないようにするためです。もう1つの理由は、Cookieによってクローラーが最初に検出されたロケールにクローラーを制限できるため、クローラーが複数のロケールにまたがるコンテンツにインデックスを付けない可能性があることです。

先端

複数のロケールでコンテンツをインデックス化する場合は、クローラーでナビゲーションCookieの受け入れを無効にすることをお勧めします。

一方、その後のアクセスにナビゲーションCookieを必要とするWebサイト、特に認証が必要なWebサイトでは、ナビゲーションCookieを有効にすることができます。

デフォルト: 有効。クローラーはナビゲーションCookieを受け入れます。

Render Javascript

クローラーがページ上でJavaScriptをレンダリングするかどうか。

Render JavaScriptを有効にすると、クローラーはJavaScriptがレンダリングされるのを待機し、ページソースに加えてそのコンテンツにインデックスを付けます。Render JavaScriptを有効にしない場合、クローラーはページソース内のコンテンツのみにインデックスを付けます。

Render Javascriptを有効にする場合は、いくつかの追加設定を定義する必要があります。

デフォルト: オフ。

この記事を改善するための提案がある場合は、 お知らせください!