メディアファイルのインデックスコンテンツ
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
Sitecore Content Search APIは、次のオープンソース ライブラリを使用して、インデックス作成のためにメディア ファイルからテキスト コンテンツを抽出します。
-
DOCX、XLSX、PPTXファイル用の Open XML SDK
Apache Tikaを使用して、インデックス作成用のメディア コンテンツを抽出することもできます。
メディアのインデックス作成を構成する
デフォルトのテキスト抽出ツールは、.pdf、.docx、.xlsx、および.pptxのファイル形式のみをサポートします。拡張リストが必要な場合は、Solr Cell、Tika、またはIFilterのいずれかの代替テキスト抽出器の使用を検討してください。
この場合、Sitecoreは <mediaIndexing> セクション内の設定を使用し、rtf、odt、doc、dot、docx、dotx、docm、dotm、xls、xlt、xla、xlsx、xlsm、xltm、xlam、xlsb、ppt、pot、pps、ppa、pptx、potx、ppsx、ppam、pptm、potm、ppsm、またはMIMEタイプapplication/pdf、text/html、text/plainの拡張子でコンテンツのインデックス化を試みます。操作が成功するかどうかは、システムにインストールされているiFilters、またはSolr CellまたはTikaがサポートするファイル形式によって異なります。
アプリケーションがAzure Webアプリとしてデプロイされている場合、iFilterオプションを使用することはできません。
異なるファイル・タイプのセットに索引を付ける場合は、使用する検索プロバイダーのmediaIndexing構成ノードにパッチを適用して、ファイル・タイプを指定できます。Solrの場合、デフォルト設定はApp_Config\Sitecore\ContentSearch\Sitecore.ContentSearch.Solr.DefaultIndexConfiguration.configファイルにあります。
mediaIndexingノードの下には、次の2つのノードがあります。
-
mimeTypes
このノードは、含まれる (インデックスされる) か、除外される (インデックス化されない) MIMEタイプを指定します。
-
extensions
このノードは、含まれる (インデックスが作成される) または除外される (インデックス化されない) ファイルのファイル拡張子を指定します。
各ノードにはexcludesとincludesの2つのノードがあり、インデックスを作成しないものとインデックスを作成するものを指定します。どちらの場所でも、アスタリスク (*) をワイルドカードとして使用できます。ホワイトリストとブラックリストは、ワイルドカードを使用して実装できます。ホワイトリストに登録するには、excludesノードにワイルドカードを追加してから、ホワイトリストに登録された拡張子またはMIMEタイプをincludesノードに追加します。 includesノードにワイルドカードを追加してブラックリストに登録し、excludesノードを使用して特定の拡張子またはMIMEタイプをブラックリストに登録します。
インデックス作成にIFilterを使用するようにコンテンツ検索を構成する
Sitecore Content Search APIは、ネイティブのMicrosoft Windows IFilterインターフェイスを使用するように設定できます。
PDF iFilterはデフォルトではインストールされません。PDFファイルのコンテンツにインデックスを付けるには、インデックスを作成する各Sitecoreインスタンスを見つけます。SolrまたはAzure Searchプロバイダーを使用する場合、通常はCMインスタンスです。このようなSitecoreインスタンスをホストする各マシンにPDF IFilterをインストールする必要があります。
IFIlterがインデックス作成のためにメディア ファイルのコンテンツを抽出できるようにするには:
-
App_Config\Sitecore\ContentSearch\Sitecore.ContentSearch.ContentExtraction.config を次のように変更(パッチ)します。