インデックス作成を構成する

クローラーの仕様

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

次の表は、各クローラーの種類がサポートする機能を示しています。

特徴		ウェブクローラー	高度なWebクローラー	APIクローラー
複数のエンティティ	複数のエンティティから属性値を抽出する	いいえ	はい	はい
クロールおよび解析できるContent	HTML	はい	はい	はい
	Microsoft Officeフォーマット	はい	はい	いいえ
	.pdf	はい	はい	いいえ
	JSON	いいえ	いいえ	はい
General Settings	許可されるドメインを指定する	いいえ	はい	いいえ
	一部のURLを除外するパターンを定義する	はい	はい	はい
	最大クローラー深度の指定	はい	はい	はい
	クロールできるURLの最大数を指定する	はい	はい	はい
	並行して作業するワーカーの数を指定する	いいえ	はい	はい
	クローラーのタイムアウトを指定する	いいえ	はい	いいえ
	元のコンテンツにヘッダーが必要な場合は、クローラーにヘッダーを追加する	はい	はい	はい
	JavaScriptをレンダリングし、ページソースに加えてクロールする	いいえ	はい	該当なし
クロールの開始 (トリガー)	リクエストURLを使用する	はい	はい	はい
	サイトマップを使用する	はい	はい	該当なし
	サイトマップインデックスを使用する	はい	はい	該当なし
	JavaScript関数を使用する	いいえ	はい	はい
	RSSフィードを使用する	いいえ	はい	該当なし
属性の抽出 (Document Extractor)	XPath式を使用する	はい	はい	該当なし
	CSS式を使用する	いいえ	はい	該当なし
	JavaScript関数を使用する	いいえ	はい	はい
	JSONPathを使用する	いいえ	いいえ	はい
	属性を抽出する前に特定のURLパターンを一致させる	いいえ	はい	はい
	複数のルールを作成して属性を抽出し、これらのルールに優先順位を付ける	いいえ	はい	はい
	属性を抽出するためのエンティティベースのルールを指定する	いいえ	はい	はい
スキャンをスケジュールして、インデックスドキュメントを元のコンテンツで最新の状態に保つ		はい	はい	はい
複数のロケールと言語でオリジナルコンテンツを処理		いいえ	はい	はい
認証が必要なオリジナルコンテンツの取り扱い		いいえ	はい	はい
トリガーでカバーされていない開始点を追加する (Request Extractor)		いいえ	はい	はい
Ingestion APIを使用して増分更新を行う		いいえ	はい	はい
エンティティベースのタグを使用する		いいえ	はい	はい

この記事を改善するための提案がある場合は、お知らせください!