PDFからHTMLを抽出する

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

Sitecore Searchドキュメント抽出器 は、HTMLのみを解析できます。そのため、正確なドキュメント抽出ツールを設定して、titledescriptiontagsなどの属性を抽出する前に、PDFのHTML構造がどのようなものかを知る必要があります。

これを行うには、PDFのHTML構造を明らかにすることだけを目的とした一時的なソースを設定します。このソースでは、JavaScriptドキュメント抽出器を選択し、html() jQueryメソッドを使用してentire PDFからHTMLを抽出します。次に、Content CollectionでPDFのHTML構造を表示した後、個々の属性を抽出する最適な方法を決定できます。

このチュートリアルでは、次の方法について説明します。

始める前に
  • お持ちのPDFコンテンツの種類を表すURLをいくつか集めます。

  • PDFをスキャンしてパターンを探します。たとえば、表でテキストが多いもの、テキストが限られている画像が多いもの、質問と回答のリストであるものなどに気付く場合があります。各グループから1つのPDF URLをメモすると、3つの代表的なPDFが得られます。

  • 代表的なPDFを特定します。後でPDFを抽出するようにソースを設定するall 、取得したサンプルPDFのHTML構造に基づいてドキュメント抽出を作成します。

HTML抽出を有効にするためのダミー属性の作成

PDFドキュメント全体をHTML形式で抽出するために使用できる属性が必要です。混乱を避けるために、この目的専用の属性を作成することをお勧めします。

HTML抽出を有効にするダミー属性を作成するには:

次の詳細を含む属性を作成して公開します。

  • Entity: Content

  • Display Name: PDF to HTML、または同様のもの。

  • Attribute Name: pdf_to_html、または同様のもの。

  • Placement: Standard

  • Data Type: String

一時的な高度なWebクローラー ソースを作成し、トリガーを構成する

高度なWebクローラーを作成して、PDFコンテンツを表すために選択したPDFのみをクロールします。必要なトリガーは、開始前に特定したPDFのURLのみです。

一時的な高度なWebクローラー ソースを作成し、トリガーを構成するには:

  1. CONNECTORタイプがWeb Crawler (advanced)のソースを作成します。Temp PDF to HTMLのように、その目的を特定するためにソースに明確に名前を付けます。

  2. URLを使用して、要求トリガーを作成します。その他の設定はすべてデフォルトのままにします。

  3. 特定した他のPDF URLについて、手順2を繰り返します。たとえば、それぞれに異なるパターンを持つ3つのサンプルPDFを特定した場合、3つのRequestトリガーがあります。

  4. クローラーによるハイパーリンクURLのインデックス作成を停止するには、Crawler Settings > MAX DEPTHをクリックし、値を0に変更します。

HTMLを抽出するためのJavaScriptドキュメント抽出器を構成する

ドキュメント抽出ツールは、元のコンテンツから インデックスドキュメント を作成します。各インデックスドキュメントには、属性と属性値があります。この例では、pdf_to_html属性の値のみを対象としています。PDFのHTML構造を抽出するには、html() メソッドを使用してpdf_to_html属性の値を抽出するJavaScriptドキュメント抽出器を構成します。

JavaScriptドキュメント抽出器をHTMLを抽出するように設定するには:

  1. 次の関数を使用するJavaScriptドキュメント抽出器を作成します。

    // Sample document extractor function to get HTML from PDF content.
    function extract(request, response) {
        $ = response.body;
    
        return [{
            'pdf_to_html': $('html').html(), // gets the HTML structure of the document's root element and assigns it to the pdf_to_HTML attribute
            'type': "pdf" //Mandatory attribute. Uses the fixed value of 'pdf'
        }];
    }
  2. ソースを公開してスキャンします。

Content CollectionのPDFのHTML構造をViewする

このContent Collectionを使用して、インデックス付きドキュメントを検索し、pdf_to_html属性に対して抽出されたコンテンツを表示します。

Content CollectionでPDFのHTMLバージョンを表示するには:

  1. Click Content Collection

  2. Sourcesでフィルタリングし、一時的な高度なウェブクローラーを作成したときに以前に作成したソースを選択します。

    インデックスを付けたcontent itemsの一覧が表示されます。

  3. Click a content item.

  4. Content Detailsセクションで、PDF to HTML属性を探します。この属性の値は、PDFのHTML構造です。

    The Content Details page of an item in the Content Collection. There is a PDF to HTML section displaying lots of HTML code.
  5. すべてのcontent itemsに対して手順4と5を繰り返します。

PDFのHTML構造がどのように見えるかを確認したので、この情報を使用して正確なドキュメント抽出ツールを作成し、PDFコンテンツを抽出できます。

この記事を改善するための提案がある場合は、 お知らせください!