クローラーの仕様
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
次の表は、各クローラーの種類がサポートする機能を示しています。
|
特徴 |
ウェブクローラー |
高度なWebクローラー |
APIクローラー | |
|---|---|---|---|---|
|
複数のエンティティ |
複数のエンティティから属性値を抽出する |
いいえ |
はい |
はい |
|
クロールおよび解析できるContent |
HTML |
はい |
はい |
はい |
|
Microsoft Officeフォーマット |
はい |
はい |
いいえ | |
|
|
はい |
はい |
いいえ | |
|
JSON |
いいえ |
いいえ |
はい | |
|
General Settings |
許可されるドメインを指定する |
いいえ |
はい |
いいえ |
|
一部のURLを除外するパターンを定義する |
はい |
はい |
はい | |
|
最大クローラー深度の指定 |
はい |
はい |
はい | |
|
クロールできるURLの最大数を指定する |
はい |
はい |
はい | |
|
並行して作業するワーカーの数を指定する |
いいえ |
はい |
はい | |
|
クローラーのタイムアウトを指定する |
いいえ |
はい |
いいえ | |
|
元のコンテンツにヘッダーが必要な場合は、クローラーにヘッダーを追加する |
はい |
はい |
はい | |
|
JavaScriptをレンダリングし、ページソースに加えてクロールする |
いいえ |
はい |
該当なし | |
|
クロールの開始 (トリガー) |
リクエストURLを使用する |
はい |
はい |
はい |
|
サイトマップを使用する |
はい |
はい |
該当なし | |
|
サイトマップ インデックスを使用する |
はい |
はい |
該当なし | |
|
JavaScript関数を使用する |
いいえ |
はい |
はい | |
|
RSSフィードを使用する |
いいえ |
はい |
該当なし | |
|
属性の抽出 (Document Extractor) |
XPath式を使用する |
はい |
はい |
該当なし |
|
CSS式を使用する |
いいえ |
はい |
該当なし | |
|
JavaScript関数を使用する |
いいえ |
はい |
はい | |
|
JSONPathを使用する |
いいえ |
いいえ |
はい | |
|
属性を抽出する前に特定のURLパターンを一致させる |
いいえ |
はい |
はい | |
|
複数のルールを作成して属性を抽出し、これらのルールに優先順位を付ける |
いいえ |
はい |
はい | |
|
属性を抽出するためのエンティティベースのルールを指定する |
いいえ |
はい |
はい | |
|
スキャンをスケジュールして、インデックスドキュメントを元のコンテンツで最新の状態に保つ |
はい |
はい |
はい | |
|
複数のロケールと言語でオリジナルコンテンツを処理 |
いいえ |
はい |
はい | |
|
認証が必要なオリジナルコンテンツの取り扱い |
いいえ |
はい |
はい | |
|
トリガーでカバーされていない開始点を追加する (Request Extractor) |
いいえ |
はい |
はい | |
|
Ingestion APIを使用して増分更新を行う |
いいえ |
はい |
はい | |
|
エンティティベースのタグを使用する |
いいえ |
はい |
はい | |