インデックス作成を構成する

ローカライズされた高度なWebクローラーを構成する

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

このチュートリアルでは、ローカライズされたコンテンツをクロールしてインデックスを作成するようにソースを構成する方法について説明します。これには、使用可能なロケールの構成、ロケール抽出器の構成、同じコンテンツのローカライズされたバージョンが同じIDを共有することの確認が含まれます。

大事な

クロール可能なアイテムのローカライズされたバージョンのインデックスを作成するには、高度なWebクローラーのみを使用できます。

このチュートリアルでは、次の方法について説明します。

メモ

元のコンテンツがクローラがアクセスする前に認証が必要な場合は、クローラー認証設定を構成します。たとえば、元のコンテンツには、GUIベースのユーザー名とパスワード、または要求ヘッダーのアクセストークンまたはキーが必要になる場合があります。これは、ソースの作成後いつでも実行できます。

クローラーを作成する

ローカライズされたアイテムのインデックスを作成するには、高度なWebクローラーが必要です。標準のWebクローラーをすでにお持ちの場合は、高度なWebクローラーに変換できます。

新しい高度なウェブクローラーを作成するには:

メニューバーで、Sources > Add Sourceをクリックします。
SOURCE NAMEフィールドに、ソースの名前を入力します。たとえば、「Doc site web crawler」と入力します。
DESCRIPTIONフィールドに、構成するソースを説明する行を数行入力します。たとえば、「Web crawler to crawl all pages of the doc site」と入力します。
CONNECTORフィールドで、作成するソースのタイプとしてAdvanced web crawlerをクリックします。
Click Save。エラーがない場合、Searchは新しいソースを作成します。

ソースを作成したら、コンテンツにアクセスしてインデックスを作成するようにソースを設定します。

クローラーのスコープを構成する

クローラー設定を構成して、Webクローラーの有効範囲を定義する重要な高レベルの構成を定義します。

高度なWebクローラーのスコープを構成するには:

Source Settingsページで、Advanced Web Crawler Settingsの横にある Editをクリックします。
必要に応じて、ALLOWED DOMAINSフィールドに、クローラーが保持するドメインを入力します。これは、WebクローラーがSitecoreドキュメントドメインのみをクロールし、リンクされている可能性のある外部サイトをクロールしないようにするために行います。

例えば、WebクローラーがSitecoreドキュメント・ドメインのみをクロールし、リンクされている可能性のある外部サイトはクロールしないようにするには、「www.doc.sitecore.com」と入力します。
クローラーがクロールするURLの深さと数を設定するには:
- MAX DEPTHフィールドに、クローラーがURLにたどるレベルの最大数を入力します。
  
  たとえば、クローラーをメインページの子ページに制限するには、「1」と入力します。
- MAX URLSフィールドに、クローラーがクロールするURLの最大数を合計で入力します。クローラーがURLを省略しないように、大きな数値を入力します。
  
  たとえば、「5000」と入力します。
特定のURLパターンをクローラーのスコープから除外するには、Add Exclusion Patternをクリックします。次に、TYPEドロップダウンメニューで、Glob expressionまたはRegular Expressionを選択します。 VALUEフィールドに、除外するURLに一致する式を入力します。

たとえば、クローラーが検索ページをクロールできないようにするには、次のGlob式を入力します。
**/search/**
並列にクロールするワーカーの数と、リクエスト間のオプションの遅延を設定するには:
- コンテンツを同時にクロールし、インデックスを作成するスレッド (ワーカー) の数を定義するには、PARALLELISM (WORKERS)ドロップダウンメニューの値をクリックします。
  
  たとえば、2つのワーカーのみを並行してクロールするには、「 2 」と入力します。これにより、デフォルトの5ワーカーよりも少ないメモリを使用します。
- オプションで、ワーカーを1つだけ構成した場合は、クローラーがインデックスを作成する次のURLにアクセスするまでの待機時間を定義できます。これを行うには、DELAY (MS)フィールドに時間をミリ秒単位で入力します。
  
  たとえば、「 3」と入力します。
TIMEOUTフィールドに、クローラーが応答の取得を待機する時間をミリ秒単位で入力します。

たとえば、「 5000」と入力します。これにより、クローラーは5000ミリ秒 (5秒) 待機して、クロールするすべてのURLから応答を受け取ることができます。
オプションで、ヘッダーを追加するには、Add Headerをクリックします。次に、Keyフィールドに、コンテンツに必要なユーザーエージェントの名前を入力します。 Valueフィールドに、コンテンツで想定されるユーザーエージェントの値を入力します。このセキュリティ対策により、他のクローラーではなく、Searchクローラーのみがデータをクロールできるようになります。

たとえば、Keyとしてuser-agentを入力し、Valueとしてsitecorebotと入力します。
クローラーがナビゲーションCookieを受け入れないようにするには、ENABLE NAVIGATION COOKIES DURING CRAWLINGをオフにします。

複数のロケールでコンテンツをインデックス化する場合は、Cookieの受け入れを無効にすることが重要です。これは、Cookieによってクローラーが最初に検出されたロケールに制限され、クローラーがすべてのロケールでコンテンツにインデックスを付けない可能性があるためです。
必要に応じて、クローラーがページソースに加えてページ上のJavaScriptを待機してクロールする場合は、Additional SettingsセクションでRender JavaScriptをオンにします。
Click Save。

サイトマップトリガーを設定する

トリガーは、インデックスを作成するコンテンツを検索するための開始点をクローラーに提供します。

サイトマップまたはサイトマップインデックストリガーを設定するには:

Source Settingsページで、Triggersの横にある Editをクリックします。
Click Add Trigger。
Trigger Typeドロップダウンメニューで、次の操作を行います。
- サイトマップがある場合は、Sitemapをクリックします。
- サイトマップインデックスがある場合は、Sitemap Indexをクリックします。
TIMEOUTフィールドに、クローラーが応答の取得を待機する時間をミリ秒単位で入力します。サイトマップの読み込みに非常に時間がかかる場合があり、クローラーが最大待機秒数に達したときにクローラーがタイムアウトしたくないため、ここに大きな数値を入力します。

たとえば、「 10000」と入力します。
URLフィールドで Add Itemをクリックし、サイトマップまたはサイトマップインデックスのURLを入力します。

たとえば、「 https://www.sitecore.com/sitemap.xml」と入力します。
Click Save。

使用可能なロケールを構成する

使用可能なロケールを設定して、このソースに使用するドメイン言語のサブセットを定義します。

たとえば、ロケールとして英語 (米国)、フランス語 (フランス)、日本語 (日本) を使用します。クローラーは英語 (米国) を既定のロケールとして追加しますが、フランス語 (フランス) と日本語 (日本) を追加する必要があります。

大事な

安定した取り込みを確保するには、クローラーソースごとに10個を超えるロケールを含めないでください。

ロケールを設定するには:

Source Settingsページで、Available Localesの横にある Editをクリックします。
Available Localesページで、LOCALESフィールド内をクリックして、このドメインで使用可能なロケールのリストを表示し、このソースに使用するロケールをクリックします。

たとえば、fr_frをクリックしてja_jpとします。
Click Save。

JavaScriptロケール抽出器を構成する

ロケール抽出器を構成して、クローラーがクロールする各URLからロケールを抽出する方法を定義します。

大事な

エクストラクタロジックでは、ロケール形式はAvailable Localesのロケール形式と一致する必要があります。つまり、${language}_${country} または ${language}-${country}です。

この例では、JavaScript関数を使用してこのルールを定義します。

手記

URL抽出器 (REGEXを使用) またはヘッダー抽出器を構成することもできます。

JavaScriptロケール抽出器を設定するには:

Source Settingsページで、Locale Extractorsの横にある Editをクリックします。
ロケール抽出器を作成するには、Locale Extractorsページで次の操作を行います。
- Nameフィールドに、抽出器のわかりやすい名前を入力します。
  
  たとえば、「 Sitecore.com JS locale extractor」と入力します。
- Extractor Typeドロップダウンメニューで、JSをクリックします。

JS Sourceフィールドに、Cheerio構文のJS関数を入力してロケールを抽出します。

ロケールを抽出するためのサンプルJavaScript関数を次に示します。

function extract(request, response) {
    locales = ['fr-fr','ja-jp'];
    for (idx in locales) {
        locale = locales[idx];
        if (request.url.indexOf('/' + locale + '/') >= 0) {
            return locale.toLowerCase().replace('-','_');
        }
    }
    return "en_us";
}

この関数は、次のロジックを使用します。

ページURLにロケールがある場合は、ページのURLからロケールを取得し、小文字とアンダースコアで書式設定します。この書式設定は、Available Localesのロケール書式設定、つまりfr_frとja_jpのロケール書式と一致する必要があるため、重要です。
ページURLにロケールがない場合は、インデックスドキュメントにデフォルトのロケールen_usを割り当てます。

Click Save。

ローカライズされたコンテンツ用のJavaScriptドキュメント抽出器を設定する

ドキュメント抽出器を構成して、拡張Webクローラーで抽出する属性を指定します。ローカライズされたコンテンツがある場合は、必要な他の属性に加えてidを構成します。これは、同じコンテンツのローカライズされたバージョンが同じIDを共有するようにするためです。

この例では、JavaScriptを使用して、id、type、title、subtitle、およびproduct 属性を抽出します。

ローカライズされたコンテンツ用にJavaScriptドキュメント抽出器を設定するには:

Source Settingsページで、Document Extractorsの横にある Editをクリックします。
ドキュメント抽出ツールを作成するには、Document Extractorsページで次の操作を行います。
- Nameフィールドに、抽出器のわかりやすい名前を入力します。
  
  例えばSitecore with languages 。
- Extractor Typeドロップダウンメニューで、JSをクリックします。
Taggersセクションで、Add Taggerをクリックします。

タグエディターには、description、name、type、image_urlおよびurl属性を返すサンプルJavaScript関数が表示されます。Searchでは、構成に役立つこのサンプルを提供しています。
ローカライズされたコンテンツを有効にするには、Localizedスイッチをオンにします。

タグエディターで、属性値を返すJavaScript関数を貼り付けます。 id属性の値が、同じコンテンツのローカライズされたバージョン間で一定であることを確認します。

この関数はCheerio構文を使用し、オブジェクトの配列を返す必要があります。

たとえば、次のコードを貼り付けます。

function extract(request, response) {
    $ = response.body;
    url = request.url;
    locales = ['/fr-fr/', '/ja-jp/'];
    for (idx in locales) url = url.replace(locales[idx], '/');
    id = url.replaceAll('/', '_').replaceAll(':', '_').replaceAll('.', '_');
    return [{
        'type': $('meta[name="type"]').attr('content') || 'Others',
        'title': $('h1').text(),
        'subtitle': $('meta[name="description"]').attr('content') || $('section[data-component-name="Hero Banner"] div[class*="side-content"]>div>p, header div.lead p').text(),
        'product': $('meta[name="product"]').attr('content'),
    }];
}

このコードでは、次のロジックを使用して属性値を取得します。

id - ロケールを無視した後、これをURLから取得します。URLからIDを生成するには、まずロケールをスラッシュ (/) に置き換えます。次に、URL内のすべてのスラッシュ(/)、ドット(.)、コロンをアンダースコア(_)に置き換えます。
type - 最初の <meta name="type"> タグのコンテンツを使用します。このタグが存在しない場合は、otherを使用します。
title - テキストfirst <h1> HTMLタグを使用します。
subtitle- 最初のmeta name="type"タグのコンテンツを使用します。このタグが存在しない場合は、最初のsectionの<div class="side-content">のテキストを<data-component-name="Hero Banner">タグで使用します。
product - 最初の <meta name="product"> タグのコンテンツを使用します。

Edit Taggersウィンドウで、Saveをクリックします。次に、Document ExtractorsページでSaveをクリックします。

クローラースケジューラを作成する

クローラースケジュールを作成するには:

メニューバーで、Sourcesをクリックします。
クロールをスケジュールするソースClickをクリックします。
Source Settingsページで、Crawler Schedulerの横にある Editをクリックします。
Searchがスケジュールされたクロールを開始するタイミングを設定するには、STARTSドロップダウンメニューの値をクリックします。スケジュールをできるだけ早く開始する場合は、Anytimeを選択します。特定の日付にクロールを開始する場合は、Specific Dateをクリックし、日付ピッカーで日付をクリックします。
クロールを定期的に実行するには、REPEATドロップダウンメニューでYesをクリックします。

先端

クロールを将来の日付に1回だけ実行するようにスケジュールするには、REPEATドロップダウンメニューでDOES NOT REPEATをクリックします。この構成では、クロールは手順4で選択した日付に実行され、繰り返されません。
クロールの頻度を定義するには、Repeats everyフィールドの横にある値をクリックします。間隔として1から99までの任意の値をクリックし、時間の単位としてdays、weeks、または( productionドメインのみ) hoursのいずれかをクリックできます。たとえば、クロールを4週間ごとに実行する場合は、4をクリックしてweeksします。
クロールを開始する時刻を定義するには、RUN TIMEドロップダウンメニューで値をクリックします。たとえば、クロールを真夜中に開始する場合は、12:00 AMをクリックします。表示される時刻は、タイムゾーンに合わせて自動的に調整されます。
クローラースケジュールを終了するタイミングを設定するには、END DATEドロップダウンメニューの値をクリックします。スケジュールを無期限に続行する場合は、Neverを選択します。クロールを特定の日付に終了する場合は、Specific Dateをクリックし、日付ピッカーで日付をクリックします。
Click Save。

ソースへの更新の発行

最初のスキャンとインデックスを開始するには、ソースを公開する必要があります。

ソースを公開するには:

メニューバーで、Sourcesをクリックします。
公開するソースClick、Publishをクリックします。
Publish Sourceダイアログで、このソースの再クロールを開始するSearchは、Trigger source recrawl after publishingチェックボックスをオンにします。
Click Publish。

この記事を改善するための提案がある場合は、お知らせください!

ローカライズされた高度なWebクローラーを構成する

クローラーを作成する

クローラーのスコープを構成する

サイトマップ トリガーを設定する

使用可能なロケールを構成する

JavaScriptロケール抽出器を構成する

ローカライズされたコンテンツ用のJavaScriptドキュメント抽出器を設定する

クローラースケジューラを作成する

ソースへの更新の発行

サイトマップトリガーを設定する