データレイクエクスポートサービス

データレイクエクスポートサービス
データへのアクセス

データへのアクセス

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

このチュートリアルでは、アマゾンウェブサービスコマンドラインインターフェイス (AWS CLI) を使用して、Sitecore Amazon S3バケット内の組織のデータにアクセスする方法について説明します。

このチュートリアルでは、次のことを前提としています。

AWS Management Consoleへのアクセス権とIAMロールを作成する権限を持つAmazon Web Services (AWS) アカウント。
IAMロールを使用してAWSインスタンスにアクセスするように設定されたAWSコマンドラインインターフェイス (AWS CLI)。

データへのアクセスを準備するには、まずIAMロールを作成し、そのポリシーを更新します。次に、IAMロールを承認してデータへのアクセスをリクエストするサポートケースを作成します。IAMロールが承認されたら、AWS CLIでIAMロールを使用して、データに安全にアクセスできます。

このチュートリアルでは、次の方法について説明します。

IAMロールを作成する

AWSマネジメントコンソールを使用して、作成者である自分に組織のデータへの排他的な読み取りアクセスを付与するIAMロールを作成できます。

IAMロールを作成するには:

AWSマネジメントコンソールで、Sitecore Amazon S3バケット内の組織のデータへのアクセスを許可するIAMロールを作成します。
IAMロールAmazonリソースネーム (ARN) をメモします。 {:placeholder-token:}<aws_account_id>{/:placeholder-token:} をAWSアカウントIDに置き換え、{:placeholder-token:}<role_name_with_path>{/:placeholder-token:} を有効なパスに置き換えます。
arn:aws:iam::<aws_account_id>:role/<role_name_with_path>
例：
arn:aws:iam::012345678901:role/sitecore-access-s3-role

大事な

作成したIAMロールは、それを作成した元のユーザーである自分にのみ排他的読み取りアクセスを付与します。組織のデータへのアクセスをリクエストするときは、このロールに関連付けられた特定のARNを指定する必要があります。

IAMロールポリシーを設定する

IAMロールを作成したら、アクセス許可ポリシーをアタッチする必要があります。このポリシーのアクセス許可によって、組織のデータへのアクセス要求が許可されるか拒否されるかが決まります。

IAMロールポリシーを設定するには:

AWSマネジメントコンソールで、前の手順で作成したIAMロールのアクセス管理領域で、次のインラインポリシーを作成します。

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Sid": "AllowS3Access",
      "Effect": "Allow",
      "Action": [
        "s3:GetObject",
        "s3:ListBucket"
      ],
      "Resource": [
        "arn:aws:s3:::bx-<client_key>-production-<region_code>/*",
        "arn:aws:s3:::bx-<client_key>-production-<region_code>"
      ]
    }
  ]
}

プレースホルダーの値を Sitecore CDPインスタンスの詳細に置き換えます。

アクセスのリクエスト

IAMロールポリシーを設定したら、データレイクのエクスポートを有効にするためのサポートケースを作成して、組織のデータへのアクセスをリクエストする必要があります。

アクセスをリクエストするには:

サポートケースを作成し、IAMロールARNを提供します。
確認を待ちます。 Sitecoreがデータレイクのエクスポートを有効にし、作成したIAMロールへのアクセスを許可すると、通知が届きます。指定した特定のIAMロールARNのみが、組織のデータへのアクセスを許可されます。

大事な

データレイクのエクスポートを有効にした後は、アクセスが中断されるため、IAMロールを変更しないでください。 Sitecore Amazon S3バケットは、指定した元のIAMロールARNのみを認識するように厳密に設定されています。IAMロールのアクセス許可または詳細を変更すると、競合が発生し、組織のデータにアクセスできなくなります。

エクスポートされたデータを理解する

組織のデータにアクセスする前に、データがどこに保存されているか、エクスポートにどのデータが含まれているかを理解することが重要です。

データ保存場所

アクセスが許可されると、Sitecore CDP Data Lakeエクスポートサービスが毎日実行され、組織のデータの完全なエクスポートが作成されます。エクスポートされたデータは、Sitecore Amazon S3バケット内の指定されたフォルダに保存されます。エクスポートフォルダは次の形式に従います(プレースホルダー値はSitecore CDPインスタンスの詳細に置き換えられます)。

s3://bx-<client_key>-<env>-<region_code>/analytics/bdl/exports/data/

データの冗長性

Sitecoreエクスポートプロセスで失敗またはエラーが発生した場合に備えて、エクスポートフォルダーに設計された冗長性のレベルを提供します。データの信頼性を確保するために、SitecoreはData Lakeの完全エクスポートの過去3日間を指定されたフォルダーに保存します。

たとえば、2024年5月5日、エクスポートフォルダーに3つのサブフォルダーがあり、それぞれにYYYY-MM-DD ISO 8601形式の日付が付けられ、次のデータが含まれています。

2024-05-04 - 5月3日以降の新規データと更新データを含む、データレイクの全コンテンツ。
2024-05-03 - 5月2日以降の新規データと更新データを含む、データレイクの全コンテンツ。
2024-05-02 - Data Lakeのコンテンツ全体。

5月6日に障害が発生した場合、過去3日分のデータは引き続き使用できますが、5月5日のデータはそこにありません。5月7日にサービスが再開されると、フォルダ構造は次のようになります。

2024-05-06 - 5月4日と5月5日の新規データと更新データを含む、データレイクの全コンテンツ。
2024-05-04 - 5月3日以降の新規データと更新データを含む、データレイクの全コンテンツ。
2024-05-03 - Data Lakeのコンテンツ全体。

データのパーティショニング

エクスポートフォルダーは、さまざまなSitecore CDPエンティティのサブフォルダーにさらにパーティション分割されます。 events、guests、sessionsの別々のフォルダがあります。

eventsサブフォルダーには、データレイク内で最大のデータセットが含まれており、このデータを毎日ダウンロードするのは非効率的です。このプロセスを最適化するために、Sitecoreはイベントデータに日付ベースのパーティション分割を使用します。各日のイベントは、meta_created_at_date=YYYY-MM-DDというラベルの付いた個別のフォルダに保存されます。たとえば、meta_created_at_date=2024-05-04、meta_created_at_date=2024-05-03などです。

イベントデータは加算的であるため、以前のイベントは削除されません。その結果、各日次エクスポートのeventsサブフォルダーには、データレイクエクスポートがアクティブになった各日のパーティション分割されたサブフォルダーが含まれます。この構造により、eventsサブフォルダ全体を毎日ダウンロードする必要がなくなります。代わりに、最新のパーティション分割されたイベントデータを取得し、それを既存のデータセットに追加するだけで、最新の状態に保つことができます。

sessionsサブフォルダは、eventsサブフォルダと同じ方法で日付でパーティション分割されており、同じ方法に従うことをお勧めします。

guestsサブフォルダは、ゲストタイプ (CUSTOMER、VISITOR、RETIRED) ごとにパーティション分割されています。このデータセットは常に変更されるため、毎日このフォルダーを完全に取得することをお勧めします。

データへのアクセス

IAMロールが承認されると、IAMロールの作成者である自分だけが、Sitecore Amazon S3バケット内の組織のデータにアクセスできるようになります。

大事な

指定した特定のIAMロールARNのみが、組織のデータへのアクセスを許可されます。他のユーザーは、このIAMロールを使用してデータにアクセスできません。最初に指定したユーザーとは異なるユーザーにロールを付与し、そのユーザーがエクスポートプロセスを実行しようとすると、セキュリティ上の理由から拒否されます。

Data Lakeのエクスポートの設定後に割り当てられたユーザーを変更する必要がある場合は、この更新を要求するためのサポートケースを作成する必要があります。これによりプロセスがリセットされるため、アクセスをリクエストする前に、正しいユーザー、ロール、ARNがあることを確認してください。

このセクションでは、AWS Command Line Interface (AWS CLI) でaws s3 cp (またはコピー) コマンドを使用して、データをダウンロードする方法、または選択した別のAmazon S3バケットにコピーする方法について説明します。または、データにアクセスするためにGetまたはListで始まる任意のAmazon S3アクションを実行することもできます。

データにアクセスするには:

AWS CLIがインストールされ、IAMロールを使用してAWSインスタンスにアクセスできるように設定されていることを確認します。
エクスポートフォルダからコピーするフォルダとサブフォルダを決定します。特定の要件に応じて、さまざまなデータセットを選択できます。
ターミナルまたはコマンドプロンプトを開き、次のaws s3 cpコマンドを実行して組織のデータをコピーします。プレースホルダーの値を Sitecore CDPインスタンスの詳細に置き換えてください。
Example 61。ターミナルに入力できるよく使うaws s3 cpコマンド
組織のデータをローカルコンピューターにダウンロードします。これには、過去3日間の完全なデータレイクエクスポートが含まれます。
aws s3 cp s3://bx-<client_key>-<env>-<region_code>/analytics/bdl/exports/data . --recursive
特定の日付の完全なデータレイクエクスポートをローカルマシンにダウンロードします。
aws s3 cp s3://bx-<client_key>-<env>-<region_code>/analytics/bdl/exports/data/<date> . --recursive
組織のすべてのデータを、選択した別のAmazon S3バケットにコピーします。これには、過去3日間の完全なデータレイクエクスポートが含まれます。
aws s3 cp s3://bx-<client_key>-<env>-<region_code>/analytics/bdl/exports/data <destination> --recursive
特定の日付の完全なデータレイクエクスポートを、選択した別のAmazon S3バケットにコピーします。
aws s3 cp s3://bx-<client_key>-<env>-<region_code>/analytics/bdl/exports/data/<date> <destination> --recursive

これらのコマンドのいずれかを実行すると、組織のデータがローカルにダウンロードされるか、選択した別のAmazon S3バケットにコピーされます。

プレースホルダー値の参照

コマンド例では、プレースホルダーの値をSitecore CDPインスタンスの必要な詳細に置き換え、特定のニーズに応じてエクスポートの詳細に置き換えます。

属性	種類	形容	例
{:placeholder-token:}<client_key>{/:placeholder-token:}	糸	Sitecore CDPインスタンスからのSitecore CDPクライアントキー。これは、組織の一意の公開識別子です。クライアントキーを見つけるには、ナビゲーションペインのSitecore CDPで > API access > Client keyをクリックします。	ZpHxO9WvLOfQRVPlvo0BqB8YjGYuFfNe
{:placeholder-token:}<env>{/:placeholder-token:}	糸	デプロイメント環境。通常は、特に通知がない限り、productionに設定されます。	production
{:placeholder-token:}<region_code>{/:placeholder-token:}	糸	Sitecore CDPインスタンスの環境に対応するリージョンコード。地域コードを検索するには、ナビゲーションペインのSitecore CDPで > Company information > Environmentをクリックします。	次のいずれかである必要があります。 ap-southeast-2 eu-west-1 ap-northeast-1 us-east-1
{:placeholder-token:}<date>{/:placeholder-token:}	糸	過去の特定の日付または今日の日付で、その日付の完全なデータレイクエクスポートをコピーします。形式： YYYY-MM-DD	2025-01-27
{:placeholder-token:}<destination>{/:placeholder-token:}	糸	ピリオド (.) で示されるローカルマシン、またはデータをコピーする別のAmazon S3バケット。	s3://my-bucket/myData

この記事を改善するための提案がある場合は、お知らせください!