頻繁な新しい更新プログラムをクロールするためのベスト プラクティス
日本語翻訳に関する免責事項
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
このトピックでは、以前にクロールしてインデックスを付けたサイトに対する新しい変更を頻繁にキャプチャする場合の考慮事項について説明します。
クローラーを作成する
-
クローラー・タイプが更新された項目 ( WebクローラーまたはAPIクローラー) に適切であることを確認します。
-
名前、URL、タイプなど、クローラーのすべての基本設定を構成します。
設定を構成する
-
クローラーが、動的なコンテンツや頻繁に変更されるコンテンツがあるサイトの領域のみに焦点を当てていることを確認します。
-
フォーカスされた領域のすべてのURLとその認証情報を含めます。
-
クローラータイプがURLまたはエンドポイントですべての項目タイプのインデックスを作成できることを確認します。
-
必要に応じて、PDF、画像、またはローカライズされたコンテンツの 抽出ツールを使用してクローラー をサポートします。
ドキュメント抽出器を割り当てる
-
ドキュメント抽出ツールがクロールされたアイテムから値を抽出できることを確認します。たとえば、XPathやJSONなどです。
-
ドキュメント抽出器が増分変更を処理するように構成されていることを確認します。
トリガーを構成する
-
増分更新を開始するためのRequestまたはJavaScriptトリガーが実装されました。
-
変更の頻度に一致しながら、毎時または数時間ごとなどの一定の間隔でトリガーを実行するようにスケジュールします。
-
サイトのパフォーマンスへの影響を最小限に抑えるために、トラフィックの少ない時間 にトリガーを設定します。
タグの追加
-
分類と優先順位付けのニーズに応じて、クローラーに タグを追加します 。