PDFコンテンツ
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
PDFコンテンツから属性値を抽出するのに役立つサンプルJavaScriptドキュメント抽出ツールをいくつか用意しています。各例には、PDFのHTML構造の抽出と、対応するドキュメント抽出ツールがあります。
サンプル1: PDFコンテンツから属性値を取得するための単純なJavaScript抽出ツール
この例では、条件関数を使用して属性値を取得する単純なJavaScript抽出器を作成する方法を示します。
PDFはhttps://archive.doc.sitecore.com/xp/en/legacy-docs/web-forms-for-marketers-8.0.pdfで入手できます。HTML構造は、簡潔にするために短縮して次のようになります。
このPDFからname、type、website、description、abstract、author 、およびlast_modified属性を抽出するためのサンプルJavaScriptドキュメント抽出ツールを次に示します。
この関数は、次のロジックを使用して属性値を取得します。
-
name- 最初のdivタグのテキストをpageのclassでトリミングします。次に、最初の40文字のみを使用します。テキストがない場合は、値をNo Nameに設定します。
-
type - 固定値pdfを使用します。
-
website - 固定値Sitecore Documentationを使用します。
-
description- クラスpageの最初の<div>タグのテキストを使用して、最初の100文字のみを使用します。テキストがない場合は、値をNo Descriptionに設定します。
-
author- 最初のmetaタグのコンテンツ値をnamedc:creatorで使用します。テキストがない場合は、値をNo Authorに設定します。
-
last_modified- 最初のmetaタグのテキストをnamedcterms:createdで使用します。テキストがない場合は、値をNo Last Modified Dateに設定します。
サンプル2: PDFコンテンツから属性値を取得するための複雑なJavaScript抽出ツール
この例では、必要な属性値を取得するために、多くのネストされた関数を含む複雑なJavaScript抽出器を作成する方法を示します。また、PDFが置かれている親ページを追跡するためにparent_url属性を抽出する方法も定義します。
PDFは、https://www.sitecore.com/customers/associations/us-masters-swimmingでDownload case studyをクリックします。HTML構造は、簡潔にするために短縮して次のようになります。
このPDFからid、type、last_modified、name、description、およびparent_url属性を抽出するためのJavaScriptドキュメント抽出ツールのサンプルを次に示します。
この関数は、次のロジックを使用して属性値を取得します。
-
id - URLの特殊文字をアンダースコア (_) に置き換えます。
-
type - 固定値pdfを使用します。
-
parent_url - 親コンテキスト (request.context.parent) 内で、requestオブジェクトにアクセスします。次に、urlパラメーターにアクセスします。
-
last_modified- 親コンテキスト(request.context.parent)内で、最初のドキュメント配列(documents0)にアクセスします。次に、URLのlast_modified属性のdataオブジェクトにアクセスします。
-
name - 次のように、name HTML要素または親ドキュメントのname HTML要素のいずれかを使用します。
-
まず、<name> HTML要素のテキストをサニタイズします。
-
次に、サニタイズされた名前が短すぎるかどうかを確認するには、長さが4文字以下であるかどうかを確認します。
-
名前が短すぎて、親ドキュメントに定義された本文 ($p) がある場合は、親のnameタグを使用します。
-
-
description - <body> HTML要素のテキストをサニタイズし、最初の7000文字に制限します。