XPathドキュメント抽出ツールを作成する
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
XPath式を使用してSitecore Searchソースの属性値を抽出する場合は、XPathドキュメント抽出器を作成します。
このトピックでは、高度なWebクローラー用のXPathドキュメント抽出ツールを作成する方法について説明します。この手順を使用して、Webクローラー ソースのXPathを使用して属性を抽出しないでください。
XPathドキュメント抽出ツールを作成するには:
-
メニューバーで、Sourcesをクリックします。
-
高度なWebクローラーを選択します。
-
Source SettingsページのDocument Extractorsの横にある
Editをクリックします。 -
ドキュメント抽出ツールを作成するには、Document Extractorsページで次の操作を行います。
-
Nameフィールドに、この抽出器のわかりやすい名前を入力します。
たとえば、「 Sitecore dev portal XPath extractor」と入力します。
-
Extractor Typeドロップダウンメニューで、XPathをクリックします。
-
オプションで、この抽出ツールのロジックが特定のパターンに 一致するURLにのみ適用されるようにするには、URLs to Matchを設定します。これを行うには、URLs To Matchフィールドで
Add Matcherをクリックし、使用する式のTYPEを選択し、その式のVALUEを入力します。
-
-
属性の抽出方法を定義するには、Taggersセクションで、最初のタグの横にある
Editをクリックします。通常、contentタグです。いくつかの属性と対応するXPath抽出式のリストが表示されます。Searchには、構成に役立つこれらのサンプル属性と式が用意されています。
手記ドキュメント抽出ツールでは、それぞれが一意のタグにリンクされている複数のタガーを作成できます。このようにして、各タガーは次のようになります。
-
インデックスドキュメントのセットを生成します。
-
各ルールが1つの属性の抽出ロジックを定義するように、複数のルールを持つことができます。
たとえば、5つのルールを持つ1つのタガー one 、それぞれがfiveの属性を持つ一連のドキュメントを生成します。
それぞれ1つのルールを持つ3つのタガーは、それぞれがone属性を持つthreeセットのドキュメントを生成します。
-
-
このエクストラクタで不要なサンプル属性を削除するには、Delete
をクリックします。 -
サンプル属性の構成を編集するには、Edit
をクリックし、変更を加えます。 -
新しい属性の値を抽出する方法を設定するには、Add Rule
をクリックし、次の詳細を入力します。-
Attributeドロップダウンメニューで、設定する属性を選択します。
例えば、「 Abstract」をクリックします。
-
Value typeドロップダウンメニューで、属性値を固定値にするか式にするかを選択します。
例えば、「 Expressions」をクリックします。
-
EXPRESSIONフィールドに、属性値を生成するXPath式を入力します。
たとえば、abstractという単語を含むclass属性に含まれるすべてのp要素のテキストからabstractという属性の値を取得する場合は、次のXPath式を入力します。
//*[contains(@class, "abstract")]//p
-
-
オプションで、属性値を取得する複数の方法を設定するには、
Add Selectorをクリックします。次に、2番目のセレクターのExpressionフィールドに、属性値が得られるXPath式を入力します。たとえば、2番目のオプションとして、topic-contentのdivclass内にあるすべてのp要素のテキストからabstractを取得します。これを行うには、次のXPath式を入力します。
//div[@class="topic-content"]//p複数のセレクターがある場合、Searchはそれらを時系列で実行し、結果を与える式に到達すると停止します。
-
タグエディタで、Saveをクリックします。次に、Document ExtractorsページでSaveをクリックします。
-
必要に応じて、別のタグの属性を抽出するには、「
Add Tagger」をクリックし、Tagドロップダウンメニューでタグをクリックします。次に、手順7から9を繰り返します。 -
Document Extractorsページで、Saveをクリックします。