インデックス項目

クローラー設定を構成する

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

クローラー設定では、ソースのスコープを定義します。これには、クローラーがクロールできるドメイン、回避する必要があるURL、クローラーが到達する最大URLの深さなどが含まれます。

メモ

1つのWebサイトからデータをインデックスに登録するには、1つのクローラーを使用するのがベストプラクティスです。メタデータを異なる方法で保存する可能性のある記事、ページ、PDF、およびその他のドキュメントタイプのデータをインデックス化するには、複数のドキュメント抽出ツールをクローラーに適用することをお勧めします。

クローラーを構成するには、次の設定を使用します。

設定	形容
ALLOWED DOMAINS	クローラーでクロールしてインデックスを作成するドメイン。通常、クローラーでクロールする最上位ドメインを入力します。たとえば、クローラーがドキュメントSitecoreのみにインデックスを付ける場合は、許可されたドメインとしてwww.sitecore.comではなくdoc.sitecore.comと入力します。許可されたドメインを定義すると、クローラーがサードパーティのコンテンツにインデックスを付けることができなくなります。たとえば、元のコンテンツに外部のソーシャルメディアサイトにリンクするブログがあるとします。許可されたドメインを定義すると、クローラーはブログページのインデックスを作成し、ソーシャルメディアサイトへのリンクを無視して、次のURLに移動します。許可されたドメインを複数追加できます。デフォルト: なし。これは、クローラーが検出したすべてのドメインをクロールすることを意味します。
MAX DEPTH	クローラーが1つのURLでたどるリンクの最大数。たとえば、最大深度が3であるとします。クローラーは、深さレベル1のwww.sitecore.comから開始し、次に深さレベル2のwww.sitecore.com/productsに移動し、次に深さレベル3のwww.sitecore.com/products/content-cloudに移動します。クローラーは、最大深さの3に達しているため、最後のページでハイパーリンクを開きません。デフォルト： 0サイトマップまたはサイトマップインデックストリガーを持つウェブクローラーソースの場合。 2他のすべてのソースについて。
MAX URLS	クロールするURLの最大数 (合計)。 MAX URLSの場合は100000のように大きな数値を入力することをお勧めします。URLの推定値よりも大きく設定します。これにより、クロールが完了する前に停止されるのを防ぎます。デフォルト： 10000 APIクローラーの場合。 1000他のすべてのクローラーの場合。
EXCLUSION PATTERNS	クローラーにインデックスを付けたくないURLを定義するGlobまたは正規表現。複数の除外パターンを作成できます。デフォルト: なし
PARALLELISM (WORKERS)	コンテンツを同時にクロールしてインデックスを作成するスレッド (ワーカー) の数。より多くのワーカーがコンテンツのインデックス作成を高速化する一方で、より多くのリソースを使用します。デフォルト： 5
DELAY (MS)	時間 (ミリ秒単位) は、クローラーがインデックスを作成する次のURLにアクセスする前に待機する必要があります。この設定を使用してクローラーのリクエストを調整し、元のコンテンツをホストするリソースに過負荷がかかる可能性を防ぐことができます。手記遅延を定義するには、PARALLELISM (WORKERS) を1に設定します。各ワーカーは独立して動作するため、複数のワーカーが存在する場合は遅延を設定することはできません。デフォルト: 0、または遅延なし。
TIMEOUT	時間 (ミリ秒単位) は、クローラーが各URLまたはドキュメントから応答を取得するのを待機します。タイムアウト期間が経過すると、クローラーはそのURLまたはドキュメントにインデックスを付けず、次のURLまたはドキュメントに移動します。デフォルト： 60000サイトマップまたはサイトマップインデックストリガーを持つウェブクローラーの場合。 10000他のすべてのクローラーの場合。
HEADERS	クローラーがWebサイトをクロールするときに使用するユーザーエージェント。セキュリティのために、クローラーのユーザーエージェントを設定し、このユーザーエージェントをホワイトリストに登録します。これにより、他のボットがサイトをクロールするのを防ぎます。 keyとvalueの値を入力します。たとえば、keyをuser-agentとして入力し、valueをsitecorebotとして入力します。デフォルト: 空。
ENABLE NAVIGATION COOKIES DURING CRAWLING	クローラーがWebサイトによって設定されたナビゲーションCookieを受け入れるかどうかを制御します。これらのCookieは、ユーザー (ここではクローラー) のパスを追跡し、訪問したURLを記録します。これらのCookieを無効にする理由の1つは、クローラーが誤解されて以前にアクセスしたURLのインデックスを再作成しないようにするためです。もう1つの理由は、Cookieによってクローラーが最初に検出されたロケールにクローラーを制限できるため、クローラーが複数のロケールにまたがるコンテンツにインデックスを付けない可能性があることです。先端複数のロケールでコンテンツをインデックス化する場合は、クローラーでナビゲーションCookieの受け入れを無効にすることをお勧めします。一方、その後のアクセスにナビゲーションCookieを必要とするWebサイト、特に認証が必要なWebサイトでは、ナビゲーションCookieを有効にすることができます。デフォルト: 有効。クローラーはナビゲーションCookieを受け入れます。
Render Javascript	クローラーがページ上でJavaScriptをレンダリングするかどうか。 Render JavaScriptを有効にすると、クローラーはJavaScriptがレンダリングされるのを待機し、ページソースに加えてそのコンテンツにインデックスを付けます。Render JavaScriptを有効にしない場合、クローラーはページソース内のコンテンツのみにインデックスを付けます。 Render Javascriptを有効にする場合は、いくつかの追加設定を定義する必要があります。デフォルト: オフ。

この記事を改善するための提案がある場合は、お知らせください!