PDFからHTMLを抽出する
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
Sitecore Searchドキュメント抽出器 は、HTMLのみを解析できます。そのため、正確なドキュメント抽出ツールを設定して、title、description、tagsなどの属性を抽出する前に、PDFのHTML構造がどのようなものかを知る必要があります。
これを行うには、PDFのHTML構造を明らかにすることだけを目的とした一時的なソースを設定します。このソースでは、JavaScriptドキュメント抽出器を選択し、html() jQueryメソッドを使用してentire PDFからHTMLを抽出します。次に、Content CollectionでPDFのHTML構造を表示した後、個々の属性を抽出する最適な方法を決定できます。
このチュートリアルでは、次の方法について説明します。
-
お持ちのPDFコンテンツの種類を表すURLをいくつか集めます。
-
PDFをスキャンしてパターンを探します。たとえば、表でテキストが多いもの、テキストが限られている画像が多いもの、質問と回答のリストであるものなどに気付く場合があります。各グループから1つのPDF URLをメモすると、3つの代表的なPDFが得られます。
-
代表的なPDFを特定します。後でPDFを抽出するようにソースを設定するall 、取得したサンプルPDFのHTML構造に基づいてドキュメント抽出を作成します。
HTML抽出を有効にするためのダミー属性の作成
PDFドキュメント全体をHTML形式で抽出するために使用できる属性が必要です。混乱を避けるために、この目的専用の属性を作成することをお勧めします。
HTML抽出を有効にするダミー属性を作成するには:
-
Entity: Content。
-
Display Name: PDF to HTML、または同様のもの。
-
Attribute Name: pdf_to_html、または同様のもの。
-
Placement: Standard。
-
Data Type: String。
一時的な高度なWebクローラー ソースを作成し、トリガーを構成する
高度なWebクローラーを作成して、PDFコンテンツを表すために選択したPDFのみをクロールします。必要なトリガーは、開始前に特定したPDFのURLのみです。
一時的な高度なWebクローラー ソースを作成し、トリガーを構成するには:
-
CONNECTORタイプがWeb Crawler (advanced)のソースを作成します。Temp PDF to HTMLのように、その目的を特定するためにソースに明確に名前を付けます。
-
特定した他のPDF URLについて、手順2を繰り返します。たとえば、それぞれに異なるパターンを持つ3つのサンプルPDFを特定した場合、3つのRequestトリガーがあります。
-
クローラーによるハイパーリンクURLのインデックス作成を停止するには、Crawler Settings > MAX DEPTHをクリックし、値を0に変更します。
HTMLを抽出するためのJavaScriptドキュメント抽出器を構成する
ドキュメント抽出ツールは、元のコンテンツから インデックスドキュメント を作成します。各インデックスドキュメントには、属性と属性値があります。この例では、pdf_to_html属性の値のみを対象としています。PDFのHTML構造を抽出するには、html() メソッドを使用してpdf_to_html属性の値を抽出するJavaScriptドキュメント抽出器を構成します。
JavaScriptドキュメント抽出器をHTMLを抽出するように設定するには:
Content CollectionのPDFのHTML構造をViewする
このContent Collectionを使用して、インデックス付きドキュメントを検索し、pdf_to_html属性に対して抽出されたコンテンツを表示します。
Content CollectionでPDFのHTMLバージョンを表示するには:
-
Click Content Collection。
-
Sourcesでフィルタリングし、一時的な高度なウェブクローラーを作成したときに以前に作成したソースを選択します。
インデックスを付けたcontent itemsの一覧が表示されます。
-
Click a content item.
-
Content Detailsセクションで、PDF to HTML属性を探します。この属性の値は、PDFのHTML構造です。

-
すべてのcontent itemsに対して手順4と5を繰り返します。
PDFのHTML構造がどのように見えるかを確認したので、この情報を使用して正確なドキュメント抽出ツールを作成し、PDFコンテンツを抽出できます。