データへのアクセス
このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。
このチュートリアルでは、アマゾン ウェブ サービスコマンドラインインターフェイス (AWS CLI) を使用して、Sitecore Amazon S3バケット内の組織のデータにアクセスする方法について説明します。
このチュートリアルでは、次のことを前提としています。
-
AWS Management Consoleへのアクセス権とIAMロールを作成する権限を持つAmazon Web Services (AWS) アカウント。
-
IAMロールを使用してAWSインスタンスにアクセスするように設定されたAWSコマンドラインインターフェイス (AWS CLI)。
データへのアクセスを準備するには、まずIAMロールを作成し、そのポリシーを更新します。次に、IAMロールを承認してデータへのアクセスをリクエストする サポートケースを作成します 。IAMロールが承認されたら、AWS CLIでIAMロールを使用して、データに安全にアクセスできます。
このチュートリアルでは、次の方法について説明します。
IAMロールを作成する
AWSマネジメントコンソール を使用して、作成者である自分に組織のデータへの排他的な読み取りアクセスを付与するIAMロールを作成できます。
IAMロールを作成するには:
-
AWSマネジメントコンソールで、Sitecore Amazon S3バケット内の組織のデータへのアクセスを許可するIAMロールを作成します。
-
IAMロールAmazonリソースネーム (ARN) をメモします。 {:placeholder-token:}<aws_account_id>{/:placeholder-token:} をAWSアカウントIDに置き換え、{:placeholder-token:}<role_name_with_path>{/:placeholder-token:} を有効なパスに置き換えます。
作成したIAMロールは、それを作成した元のユーザーである自分にのみ排他的読み取りアクセスを付与します。組織のデータ へのアクセスをリクエストする ときは、このロールに関連付けられた特定のARNを指定する必要があります。
IAMロールポリシーを設定する
IAMロールを作成したら、アクセス許可ポリシーをアタッチする必要があります。このポリシーのアクセス許可によって、組織のデータへのアクセス要求が許可されるか拒否されるかが決まります。
IAMロールポリシーを設定するには:
-
AWSマネジメントコンソール で、前の手順で作成したIAMロールのアクセス管理領域で、次のインラインポリシーを作成します。
プレースホルダーの値を Sitecore CDPインスタンスの詳細に置き換えます。
アクセスのリクエスト
IAMロールポリシーを設定したら、データレイクのエクスポートを有効にするためのサポートケースを作成して、組織のデータへのアクセスをリクエストする必要があります。
アクセスをリクエストするには:
-
サポートケースを作成し 、IAMロールARNを提供します。
-
確認を待ちます。 Sitecoreがデータレイクのエクスポートを有効にし、作成したIAMロールへのアクセスを許可すると、通知が届きます。指定した特定のIAMロールARNのみが、組織のデータへのアクセスを許可されます。
データレイクのエクスポートを有効にした後は、アクセスが中断されるため、IAMロールを変更しないでください。 Sitecore Amazon S3バケットは、指定した元のIAMロールARNのみを認識するように厳密に設定されています。IAMロールのアクセス許可または詳細を変更すると、競合が発生し、組織のデータにアクセスできなくなります。
エクスポートされたデータを理解する
組織のデータにアクセスする前に、データがどこに保存されているか、エクスポートにどのデータが含まれているかを理解することが重要です。
データ保存場所
アクセスが許可されると、Sitecore CDP Data Lakeエクスポート サービスが毎日実行され、組織のデータの完全なエクスポートが作成されます。エクスポートされたデータは、Sitecore Amazon S3バケット内の指定されたフォルダに保存されます。エクスポートフォルダは次の形式に従います(プレースホルダー値はSitecore CDPインスタンスの詳細に置き換えられます)。
データの冗長性
Sitecoreエクスポート プロセスで失敗またはエラーが発生した場合に備えて、エクスポート フォルダーに設計された冗長性のレベルを提供します。データの信頼性を確保するために、SitecoreはData Lakeの完全エクスポートの過去3日間を指定されたフォルダーに保存します。
たとえば、2024年5月5日、エクスポート フォルダーに3つのサブフォルダーがあり、それぞれにYYYY-MM-DD ISO 8601形式の日付が付けられ、次のデータが含まれています。
-
2024-05-04 - 5月3日以降の新規データと更新データを含む、データ レイクの全コンテンツ。
-
2024-05-03 - 5月2日以降の新規データと更新データを含む、データ レイクの全コンテンツ。
-
2024-05-02 - Data Lakeのコンテンツ全体。
5月6日に障害が発生した場合、過去3日分のデータは引き続き使用できますが、5月5日のデータはそこにありません。5月7日にサービスが再開されると、フォルダ構造は次のようになります。
-
2024-05-06 - 5月4日と5月5日の新規データと更新データを含む、データ レイクの全コンテンツ。
-
2024-05-04 - 5月3日以降の新規データと更新データを含む、データ レイクの全コンテンツ。
-
2024-05-03 - Data Lakeのコンテンツ全体。
データのパーティショニング
エクスポート フォルダーは、さまざまなSitecore CDPエンティティのサブフォルダーにさらにパーティション分割されます。 events、guests、sessionsの別々のフォルダがあります。
eventsサブフォルダーには、データ レイク内で最大のデータセットが含まれており、このデータを毎日ダウンロードするのは非効率的です。このプロセスを最適化するために、Sitecoreはイベント データに日付ベースのパーティション分割を使用します。各日のイベントは、meta_created_at_date=YYYY-MM-DDというラベルの付いた個別のフォルダに保存されます。たとえば、meta_created_at_date=2024-05-04、meta_created_at_date=2024-05-03などです。
イベントデータは加算的であるため、以前のイベントは削除されません。その結果、各日次エクスポートのeventsサブフォルダーには、データ レイク エクスポートがアクティブになった各日のパーティション分割されたサブフォルダーが含まれます。この構造により、eventsサブフォルダ全体を毎日ダウンロードする必要がなくなります。代わりに、最新のパーティション分割されたイベント データを取得し、それを既存のデータセットに追加するだけで、最新の状態に保つことができます。
sessionsサブフォルダは、eventsサブフォルダと同じ方法で日付でパーティション分割されており、同じ方法に従うことをお勧めします。
guestsサブフォルダは、ゲスト タイプ (CUSTOMER、VISITOR、RETIRED) ごとにパーティション分割されています。このデータセットは常に変更されるため、毎日このフォルダーを完全に取得することをお勧めします。
データへのアクセス
IAMロールが承認されると、IAMロールの作成者である自分だけが、Sitecore Amazon S3バケット内の組織のデータにアクセスできるようになります。
指定した特定のIAMロールARNのみが、組織のデータへのアクセスを許可されます。他のユーザーは、このIAMロールを使用してデータにアクセスできません。最初に指定したユーザーとは異なるユーザーにロールを付与し、そのユーザーがエクスポート プロセスを実行しようとすると、セキュリティ上の理由から拒否されます。
Data Lakeのエクスポートの設定後に割り当てられたユーザーを変更する必要がある場合は、この更新を要求するための サポート ケースを作成する必要があります 。これによりプロセスがリセットされるため、アクセスをリクエストする前に、正しいユーザー、ロール、ARNがあることを確認してください。
このセクションでは、AWS Command Line Interface (AWS CLI) でaws s3 cp (またはコピー) コマンドを使用して、データをダウンロードする方法、または選択した別のAmazon S3バケットにコピーする方法について説明します。または、データにアクセスするためにGetまたはListで始まる任意のAmazon S3アクションを実行することもできます。
データにアクセスするには:
-
AWS CLIがインストールされ 、IAMロールを使用してAWSインスタンスにアクセスできる ように設定されている ことを確認します。
-
エクスポート フォルダからコピーする フォルダとサブフォルダ を決定します。特定の要件に応じて、さまざまなデータセットを選択できます。
-
ターミナルまたはコマンド プロンプトを開き、次のaws s3 cpコマンドを実行して組織のデータをコピーします。 プレースホルダーの値を Sitecore CDPインスタンスの詳細に置き換えてください。
Example 61。 ターミナルに入力できるよく使うaws s3 cpコマンド組織のデータをローカル コンピューターにダウンロードします。これには 、過去3日間の完全なデータ レイク エクスポートが含まれます。
特定の日付の完全なデータレイクエクスポートをローカルマシンにダウンロードします。
組織のすべてのデータを、選択した別のAmazon S3バケットにコピーします。これには 、過去3日間の完全なデータ レイク エクスポートが含まれます。
特定の日付の完全なデータレイクエクスポートを、選択した別のAmazon S3バケットにコピーします。
これらのコマンドのいずれかを実行すると、組織のデータがローカルにダウンロードされるか、選択した別のAmazon S3バケットにコピーされます。
プレースホルダー値の参照
コマンド例では、プレースホルダーの値をSitecore CDPインスタンスの必要な詳細に置き換え、特定のニーズに応じてエクスポートの詳細に置き換えます。
|
属性 |
種類 |
形容 |
例 |
|---|---|---|---|
|
{:placeholder-token:}<client_key>{/:placeholder-token:} |
糸 |
Sitecore CDPインスタンスからのSitecore CDPクライアントキー。これは、組織の一意の公開識別子です。 クライアントキーを見つけるには、ナビゲーションペインのSitecore CDPで |
ZpHxO9WvLOfQRVPlvo0BqB8YjGYuFfNe |
|
{:placeholder-token:}<env>{/:placeholder-token:} |
糸 |
デプロイメント環境。通常は、特に通知がない限り、productionに設定されます。 |
production |
|
{:placeholder-token:}<region_code>{/:placeholder-token:} |
糸 |
Sitecore CDPインスタンスの環境に対応するリージョンコード。 地域コードを検索するには、ナビゲーション ペインのSitecore CDPで |
次のいずれかである必要があります。
|
|
{:placeholder-token:}<date>{/:placeholder-token:} |
糸 |
過去の特定の日付または今日の日付で、その日付の完全なデータ レイク エクスポートをコピーします。 形式: YYYY-MM-DD |
2025-01-27 |
|
{:placeholder-token:}<destination>{/:placeholder-token:} |
糸 |
ピリオド (.) で示されるローカル マシン、またはデータをコピーする別のAmazon S3バケット。 |
s3://my-bucket/myData |
