完全なウェブサイトをクロールするためのベストプラクティス
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
このトピックでは、Webサイト全体のインデックスを作成し、コンテンツの更新をキャプチャする準備をする際に考慮すべき点について説明します。週に一度行うことをお勧めします。
クローラーを作成する
-
クローラー・タイプが、検索可能なすべての項目 ( WebクローラーまたはAPIクローラー) に適切であることを確認します。
-
名前、URL、タイプなど、クローラーのすべての基本設定を構成します。
設定を構成する
-
クロールするすべてのURLとその認証情報を含めます。このようにして、すべての項目がクロールされ、インデックスが作成されます。
-
クローラータイプがURLまたはエンドポイントですべてのアイテムタイプのインデックスを作成できることを確認します。
-
必要に応じて、PDF、画像、またはローカライズされたコンテンツの 抽出ツールを使用してクローラー をサポートします。
ドキュメント抽出器を割り当てる
-
ドキュメント抽出ツールがクロールされたアイテムから値を抽出できることを確認します。たとえば、XPathやJSONなどです。
トリガーを構成する
-
サイトマップを含め、クロールの トリガーを設定します 。
-
クローラーを週に1回実行するようにスケジュールします。
-
サイトのパフォーマンスへの影響を最小限に抑えるために、トラフィックの少ない時間 にトリガーを設定します。
サイトマップトリガーは、サイトマップ内の各URLの最終更新日(lastmod)フィールドを利用するようになりました。これにより、インデックス作成の速度が向上し、コンテンツ更新の効率が向上します。
タグの追加
-
分類と優先順位付けのニーズに応じて、クローラーに タグを追加します 。