キーワード検索の最適化

分析装置の種類

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

特徴で使用する属性を構成すると、アナライザーは入力テキストを処理および変換して、検索の関連性と機能を向上させます。

ほとんどのユースケースでは、Searchによって適用されるデフォルトのアナライザーが推奨されますが、より高度なアナライザーが多数あります。

基本的な分析装置

基本的なアナライザーは、テキストを小文字にする、句読点を削除する、完全一致の作成など、単純なテキスト処理タスクを処理します。これらは、最も一般的な検索シナリオで使用されます。

標準 rfk_standard

Standard analyzerは、Multi locale standardアナライザーの古い英語のみのバージョンです。Multi locale standardと同じ操作をすべて実行しますが、ロケールは考慮されません。

英語のデータのみを扱う場合は、このアナライザーを使用してテキストの関連性を関連付けることができます。ただし、Multi locale standardアナライザーを使用することをお勧めします。

マルチロケール標準 rfk_standard_multi_locale

Multi locale standardアナライザーは、入力を小文字にし、ステミングを使用して各単語の語根形式を決定し、同義語を適用し、ストップワードと句読点を削除することで入力を処理します。この処理中にロケールが考慮されます。

例えば、訪問者がHow can I improve search results?を検索した場合、standardアナライザーは、how、can、i、improve、search、resultのトークンを出力します。この例では、大文字を小文字にし、単語improveとresultsをルート形式に縮小し、疑問符を削除しています。

Multi locale standardアナライザーは、ロケールによって異なる動作をすることができます。たとえば、言語ごとに異なるストップワードがあり、hereは英語のストップワードであり、aquíはスペイン語の対応するストップワードです。スペイン語圏のロケールでは、Multi locale standardアナライザーはこの違いを考慮に入れます。

ドメインが複数のロケールをサポートしていない場合でも、テキストの関連性を得るためにMulti locale standardアナライザーを使用します。

英数字のみ rfk_alphanumeric_only_analyzer

Alphanumeric onlyアナライザーは、standardアナライザーと同じ変換をすべて実行しますが、英数字以外の文字をトークン区切り記号として使用するのではなく、すべて削除します。

例えば、ドキュメントID 1235-abhe-3f34sの場合、Alphanumeric onlyアナライザーは1つのトークン1235abhe3f34sを生成します。これは、訪問者がハイフンを使用した場合とハイフンなしで検索できるようにする場合に便利です。この結果は、ハイフンを使用してIDを1235、abhe、3f34sの3つのトークンに区切るStandardアナライザーとは異なります。

この分析装置は、ソートやフィルタリングによく使用されます。

キーワード rfk_keyword

Keywordアナライザーは、入力テキストを1つのトークンとして生成します。

例えば、訪問者がSitecore Searchを検索した場合、Keywordアナライザーは1つのトークンSitecore Searchを作成します。これは、一致が完全なテキストでのみ機能するため、sitecoreまたは個別にsearchを一致させることができないことを意味します。

このアナライザーは、フィルターや、完全一致が必要なその他の特殊なケースに役立ちます。

小文字 rfk_lowercase

Lowercaseアナライザーは、入力全体が小文字の1つの出力トークンを生成します。

例えば、訪問者がHow to create Search experiencesを検索した場合、Lowercaseアナライザーはhow to create search experiencesトークンを生成します。

この分析装置は、ソートやフィルタリングによく使用されます。

プレフィックス一致 rfk_prefix_match

Prefix matchアナライザーは、3文字から15文字の範囲の長さの小文字のプレフィックスを生成し、入力から英数字以外の文字をすべて削除します。

例えば、訪問者がISBN 978-3-16-148410-0を検索した場合、生成されるトークンには、978、9783、97831、978316などがあります。

このアナライザーは、一意のIDを照合するためのテキスト関連性でよく使用されます。

高度な分析装置

高度なアナライザーは、n-gramの作成、複合語の処理、単語ペアの生成など、複雑なテキスト操作タスクを処理します。

Ngramベースのマッチング rfk_ngram_analyzer

Ngram based matchingアナライザーは、テキストを単語に分割し、単語ごとに長さn のnグラムを作成します。

例えば、訪問者がSitecore Searchを検索し、nの値が2の場合、生成されるトークンには、Si、it、te、ec、co、or、re、Se、eaなどがあります。

このアナライザーは、日本語などのスペースを使用しない言語や、ドイツ語などの長い複合語を含む言語をクエリする場合に便利です。プレフィックスを操作する場合にも役立ちます。 Ngram based matchingはsuggestion blocksでよく使われます。

部分一致 rfk_partial_match

Partial matchアナライザーは、特殊文字の分割と結合、およびストップワードの削除の両方を含む、入力トークンの小文字のバリアントを生成します。

例えば、訪問者がHow do I keep Sitecore Search results up-to-dateを検索すると、how、do、i、keep、sitecore、search、results、up、date、uptodateのトークンが生成されます。この例では、すべての単語が小文字に変換され、ハイフンで囲まれた単語up-to-dateが別々のトークンに分割され (ストップワードtoは削除され)、1つのトークンuptodateに結合されます。

シングルジェネレーター rfk_shingle_analyzer

Shingle generatorアナライザーは、帯状疱疹と呼ばれる単語レベルのn-gramを作成することで機能します。

例えば、訪問者がHow to improve search resultsを検索し、アナライザーが2ワードの長い帯状疱疹を作成するように構成されている場合、How to、to improve、improve search、およびsearch resultsのトークンが生成されます。

このアナライザーは、部分的なデータを抽出し、それと照合するのに役立ちます。 Shingle generator分析装置はsuggestion blocksでよく使用されます。

標準ステマーなし rfk_no_stemmer_analyzer

Standard no stemmerアナライザーは、Standardアナライザーと同じ操作を実行しますが、ステミングを使用してトークンをルート形式に縮小しません。

例えば、訪問者がHow to improve search results?を検索した場合、Standard no stemmerアナライザーは、how、improve、search、resultsのトークンを生成します。単語は小文字に変換され、ストップワードのtoは削除され、疑問符は削除されます。 Standardアナライザーとは対照的に、improveという単語は語根の形であるimprovに変更されません。

この記事を改善するための提案がある場合は、お知らせください!