クローラーの仕様

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

次の表は、各クローラーの種類がサポートする機能を示しています。

特徴

ウェブクローラー

高度なWebクローラー

APIクローラー

複数のエンティティ

複数のエンティティから属性値を抽出する

いいえ

はい

はい

クロールおよび解析できるContent

HTML

はい

はい

はい

Microsoft Officeフォーマット

はい

はい

いいえ

.pdf

はい

はい

いいえ

JSON

いいえ

いいえ

はい

General Settings

許可されるドメインを指定する

いいえ

はい

いいえ

一部のURLを除外するパターンを定義する

はい

はい

はい

最大クローラー深度の指定

はい

はい

はい

クロールできるURLの最大数を指定する

はい

はい

はい

並行して作業するワーカーの数を指定する

いいえ

はい

はい

クローラーのタイムアウトを指定する

いいえ

はい

いいえ

元のコンテンツにヘッダーが必要な場合は、クローラーにヘッダーを追加する

はい

はい

はい

JavaScriptをレンダリングし、ページソースに加えてクロールする

いいえ

はい

該当なし

クロールの開始 (トリガー)

リクエストURLを使用する

はい

はい

はい

サイトマップを使用する

はい

はい

該当なし

サイトマップ インデックスを使用する

はい

はい

該当なし

JavaScript関数を使用する

いいえ

はい

はい

RSSフィードを使用する

いいえ

はい

該当なし

属性の抽出 (Document Extractor)

XPath式を使用する

はい

はい

該当なし

CSS式を使用する

いいえ

はい

該当なし

JavaScript関数を使用する

いいえ

はい

はい

JSONPathを使用する

いいえ

いいえ

はい

属性を抽出する前に特定のURLパターンを一致させる

いいえ

はい

はい

複数のルールを作成して属性を抽出し、これらのルールに優先順位を付ける

いいえ

はい

はい

属性を抽出するためのエンティティベースのルールを指定する

いいえ

はい

はい

スキャンをスケジュールして、インデックスドキュメントを元のコンテンツで最新の状態に保つ

はい

はい

はい

複数のロケールと言語でオリジナルコンテンツを処理

いいえ

はい

はい

認証が必要なオリジナルコンテンツの取り扱い

いいえ

はい

はい

トリガーでカバーされていない開始点を追加する (Request Extractor)

いいえ

はい

はい

Ingestion APIを使用して増分更新を行う

いいえ

はい

はい

エンティティベースのタグを使用する

いいえ

はい

はい

この記事を改善するための提案がある場合は、 お知らせください!