PDFの構成

PDFからHTMLを抽出する

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

Sitecore Searchドキュメント抽出器は、HTMLのみを解析できます。そのため、正確なドキュメント抽出ツールを設定して、title、description、tagsなどの属性を抽出する前に、PDFのHTML構造がどのようなものかを知る必要があります。

これを行うには、PDFのHTML構造を明らかにすることだけを目的とした一時的なソースを設定します。このソースでは、JavaScriptドキュメント抽出器を選択し、html() jQueryメソッドを使用してentire PDFからHTMLを抽出します。次に、Content CollectionでPDFのHTML構造を表示した後、個々の属性を抽出する最適な方法を決定できます。

このチュートリアルでは、次の方法について説明します。

始める前に

お持ちのPDFコンテンツの種類を表すURLをいくつか集めます。
PDFをスキャンしてパターンを探します。たとえば、表でテキストが多いもの、テキストが限られている画像が多いもの、質問と回答のリストであるものなどに気付く場合があります。各グループから1つのPDF URLをメモすると、3つの代表的なPDFが得られます。
代表的なPDFを特定します。後でPDFを抽出するようにソースを設定するall 、取得したサンプルPDFのHTML構造に基づいてドキュメント抽出を作成します。

HTML抽出を有効にするためのダミー属性の作成

PDFドキュメント全体をHTML形式で抽出するために使用できる属性が必要です。混乱を避けるために、この目的専用の属性を作成することをお勧めします。

HTML抽出を有効にするダミー属性を作成するには:

次の詳細を含む属性を作成して公開します。

Entity: Content。
Display Name: PDF to HTML、または同様のもの。
Attribute Name: pdf_to_html、または同様のもの。
Placement: Standard。
Data Type: String。

一時的な高度なWebクローラーソースを作成し、トリガーを構成する

高度なWebクローラーを作成して、PDFコンテンツを表すために選択したPDFのみをクロールします。必要なトリガーは、開始前に特定したPDFのURLのみです。

一時的な高度なWebクローラーソースを作成し、トリガーを構成するには:

CONNECTORタイプがWeb Crawler (advanced)のソースを作成します。Temp PDF to HTMLのように、その目的を特定するためにソースに明確に名前を付けます。
URLを使用して、要求トリガーを作成します。その他の設定はすべてデフォルトのままにします。
特定した他のPDF URLについて、手順2を繰り返します。たとえば、それぞれに異なるパターンを持つ3つのサンプルPDFを特定した場合、3つのRequestトリガーがあります。
クローラーによるハイパーリンクURLのインデックス作成を停止するには、Crawler Settings > MAX DEPTHをクリックし、値を0に変更します。

HTMLを抽出するためのJavaScriptドキュメント抽出器を構成する

ドキュメント抽出ツールは、元のコンテンツからインデックスドキュメントを作成します。各インデックスドキュメントには、属性と属性値があります。この例では、pdf_to_html属性の値のみを対象としています。PDFのHTML構造を抽出するには、html() メソッドを使用してpdf_to_html属性の値を抽出するJavaScriptドキュメント抽出器を構成します。

JavaScriptドキュメント抽出器をHTMLを抽出するように設定するには:

次の関数を使用するJavaScriptドキュメント抽出器を作成します。

// Sample document extractor function to get HTML from PDF content.
function extract(request, response) {
    $ = response.body;

    return [{
        'pdf_to_html': $('html').html(), // gets the HTML structure of the document's root element and assigns it to the pdf_to_HTML attribute
        'type': "pdf" //Mandatory attribute. Uses the fixed value of 'pdf'
    }];
}

ソースを公開してスキャンします。

Content CollectionのPDFのHTML構造をViewする

このContent Collectionを使用して、インデックス付きドキュメントを検索し、pdf_to_html属性に対して抽出されたコンテンツを表示します。

Content CollectionでPDFのHTMLバージョンを表示するには:

Click Content Collection。
Sourcesでフィルタリングし、一時的な高度なウェブクローラーを作成したときに以前に作成したソースを選択します。

インデックスを付けたcontent itemsの一覧が表示されます。
Click a content item.
Content Detailsセクションで、PDF to HTML属性を探します。この属性の値は、PDFのHTML構造です。
すべてのcontent itemsに対して手順4と5を繰り返します。

PDFのHTML構造がどのように見えるかを確認したので、この情報を使用して正確なドキュメント抽出ツールを作成し、PDFコンテンツを抽出できます。

この記事を改善するための提案がある場合は、お知らせください!

PDFからHTMLを抽出する

HTML抽出を有効にするためのダミー属性の作成

一時的な高度なWebクローラー ソースを作成し、トリガーを構成する

HTMLを抽出するためのJavaScriptドキュメント抽出器を構成する

Content CollectionのPDFのHTML構造をViewする

一時的な高度なWebクローラーソースを作成し、トリガーを構成する