メディアファイルのインデックスコンテンツ

Version:
日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

Sitecore Content Search APIは、次のオープンソース ライブラリを使用して、インデックス作成のためにメディア ファイルからテキスト コンテンツを抽出します。

メディアのインデックス作成を構成する

デフォルトのテキスト抽出ツールは、.pdf、.docx、.xlsx、および.pptxのファイル形式のみをサポートします。拡張リストが必要な場合は、IFilterテキスト抽出器の使用を検討してください。

この場合、Sitecoreは <mediaIndexing> セクション内の設定を使用し、rtf、odt、doc、dot、docx、dotx、docm、dotm、xls、xlt、xla、xlsx、xlsm、xltm、xlam、xlsb、ppt、pot、pps、ppa、pptx、potx、ppsx、ppam、pptm、potm、ppsm、またはMIMEタイプapplication/pdf、text/html、とtext/plainです。操作が成功するかどうかは、システムにインストールされているiFiltersによって異なります。

アプリケーションがAzure Webアプリとしてデプロイされている場合は、iFilterオプションを使用できません。

異なるファイル・タイプのセットに索引を付ける場合は、使用する検索プロバイダーのmediaIndexing構成ノードにパッチを適用して、ファイル・タイプを指定できます。Solrの場合、デフォルト設定はApp_Config\Sitecore\ContentSearch\Sitecore.ContentSearch.Solr.DefaultIndexConfiguration.configファイルにあります。

mediaIndexingノードの下には、次の2つのノードがあります。

  • mimeTypes

    このノードは、含まれる (インデックスされる) か、除外される (インデックス化されない) MIMEタイプを指定します。

  • extensions

    このノードは、含まれる (インデックスが作成される) または除外される (インデックス化されない) ファイルのファイル拡張子を指定します。

各ノードにはexcludesincludesの2つのノードがあり、インデックスを作成しないものとインデックスを作成するものを指定します。どちらの場所でも、アスタリスク (*) をワイルドカードとして使用できます。ホワイトリストとブラックリストは、ワイルドカードを使用して実装できます。ホワイトリストに登録するには、excludesノードにワイルドカードを追加してから、ホワイトリストに登録された拡張子またはMIMEタイプをincludesノードに追加します。 includesノードにワイルドカードを追加してブラックリストに登録し、excludesノードを使用して特定の拡張子またはMIMEタイプをブラックリストに登録します。

インデックス作成にIFilterを使用するようにコンテンツ検索を構成する

Sitecore Content Search APIは、ネイティブのMicrosoft Windows IFilterインターフェイスを使用するように設定できます。

PDF iFilterはデフォルトではインストールされません。PDFファイルのコンテンツにインデックスを付けるには、インデックスを作成する各Sitecoreインスタンスを見つけます。SolrまたはAzure Searchプロバイダーを使用する場合、通常はCMインスタンスです。このようなSitecoreインスタンスをホストする各マシンにPDF IFilterをインストールする必要があります。

IFIlterがインデックス作成のためにメディア ファイルのコンテンツを抽出できるようにするには:

  • 次のようにimplementationType属性の値を変更(パッチ)App_Config\Sitecore\ContentSearch\Sitecore.ContentSearch.config変更します。

    <services>
      <register serviceType="Sitecore.ContentSearch.ContentExtraction.IMediaFileTextExtractor, Sitecore.ContentSearch.ContentExtraction" implementationType="Sitecore.ContentSearch.Extracters.IFilterTextExtraction.IFilterMediaExtractor, Sitecore.ContentSearch" />
    </services>
    
この記事を改善するための提案がある場合は、 お知らせください!