クローラー設定を構成する
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
クローラー設定では、ソースのスコープを定義します。これには、クローラーがクロールできるドメイン、回避する必要があるURL、クローラーが到達する最大URLの深さなどが含まれます。
1つのWebサイトからデータをインデックスに登録するには、1つのクローラーを使用するのがベスト プラクティスです。メタデータを異なる方法で保存する可能性のある記事、ページ、PDF、およびその他のドキュメント タイプのデータをインデックス化するには、複数のドキュメント抽出ツールをクローラーに適用することをお勧めします。
クローラーを構成するには、次の設定を使用します。
|
設定 |
形容 |
|---|---|
|
ALLOWED DOMAINS |
クローラーでクロールしてインデックスを作成するドメイン。通常、クローラーでクロールする最上位ドメインを入力します。 たとえば、クローラーがドキュメントSitecoreのみにインデックスを付ける場合は、許可されたドメインとしてwww.sitecore.comではなくdoc.sitecore.comと入力します。 許可されたドメインを定義すると、クローラーがサードパーティのコンテンツにインデックスを付けることができなくなります。たとえば、元のコンテンツに外部のソーシャル メディア サイトにリンクするブログがあるとします。許可されたドメインを定義すると、クローラーはブログ ページのインデックスを作成し、ソーシャル メディア サイトへのリンクを無視して、次のURLに移動します。 許可されたドメインを複数追加できます。 デフォルト: なし。これは、クローラーが検出したすべてのドメインをクロールすることを意味します。 |
|
MAX DEPTH |
クローラーが1つのURLでたどるリンクの最大数。 たとえば、最大深度が3であるとします。クローラーは、深さレベル1のwww.sitecore.comから開始し、次に深さレベル2のwww.sitecore.com/productsに移動し、次に深さレベル3のwww.sitecore.com/products/content-cloudに移動します。クローラーは、最大深さの3に達しているため、最後のページでハイパーリンクを開きません。 デフォルト:
|
|
MAX URLS |
クロールするURLの最大数 (合計)。 デフォルト:
|
|
EXCLUSION PATTERNS |
クローラーにインデックスを付けたくないURLを定義するGlobまたは正規表現。複数の除外パターンを作成できます。 デフォルト: なし |
|
PARALLELISM (WORKERS) |
コンテンツを同時にクロールしてインデックスを作成するスレッド (ワーカー) の数。 より多くのワーカーがコンテンツのインデックス作成を高速化する一方で、より多くのリソースを使用します。 デフォルト: 5 |
|
DELAY (MS) |
時間 (ミリ秒単位) は、クローラーがインデックスを作成する次のURLにアクセスする前に待機する必要があります。 この設定を使用してクローラーのリクエストを調整し、元のコンテンツをホストするリソースに過負荷がかかる可能性を防ぐことができます。 手記 遅延を定義するには、PARALLELISM (WORKERS) を1に設定します。各ワーカーは独立して動作するため、複数のワーカーが存在する場合は遅延を設定することはできません。 デフォルト: 0、または遅延なし。 |
|
TIMEOUT |
時間 (ミリ秒単位) は、クローラーが各URLまたはドキュメントから応答を取得するのを待機します。タイムアウト期間が経過すると、クローラーはそのURLまたはドキュメントにインデックスを付けず、次のURLまたはドキュメントに移動します。 デフォルト:
|
|
HEADERS |
クローラーがWebサイトをクロールするときに使用するユーザー エージェント。 セキュリティのために、クローラーのユーザーエージェントを設定し、このユーザーエージェントをホワイトリストに登録します。これにより、他のボットがサイトをクロールするのを防ぎます。 keyとvalueの値を入力します。たとえば、keyをuser-agentとして入力し、valueをsitecorebotとして入力します。 デフォルト: 空。 |
|
ENABLE NAVIGATION COOKIES DURING CRAWLING |
クローラーがWebサイトによって設定されたナビゲーションCookieを受け入れるかどうかを制御します。これらのCookieは、ユーザー (ここではクローラー) のパスを追跡し、訪問したURLを記録します。 これらのCookieを無効にする理由の1つは、クローラーが誤解されて以前にアクセスしたURLのインデックスを再作成しないようにするためです。もう1つの理由は、Cookieによってクローラーが最初に検出されたロケールにクローラーを制限できるため、クローラーが複数のロケールにまたがるコンテンツにインデックスを付けない可能性があることです。 先端 複数のロケールでコンテンツをインデックス化する場合は、クローラーでナビゲーションCookieの受け入れを無効にすることをお勧めします。 一方、その後のアクセスにナビゲーションCookieを必要とするWebサイト、特に認証が必要なWebサイトでは、ナビゲーションCookieを有効にすることができます。 デフォルト: 有効。クローラーはナビゲーションCookieを受け入れます。 |
|
Render Javascript |
クローラーがページ上でJavaScriptをレンダリングするかどうか。 Render JavaScriptを有効にすると、クローラーはJavaScriptがレンダリングされるのを待機し、ページソースに加えてそのコンテンツにインデックスを付けます。Render JavaScriptを有効にしない場合、クローラーはページソース内のコンテンツのみにインデックスを付けます。 Render Javascriptを有効にする場合は、いくつかの追加設定を定義する必要があります。 デフォルト: オフ。 |