1. A/B/n testing

テスト指標と計算

日本語翻訳に関する免責事項

このページの翻訳はAIによって自動的に行われました。可能な限り正確な翻訳を心掛けていますが、原文と異なる表現や解釈が含まれる場合があります。正確で公式な情報については、必ず英語の原文をご参照ください。

A/B/nテストを行う際は、十分なデータを集め正確な結論を出すためにテストが十分に長く行われることが重要です。これを行うには、統計的有意性を達成し、テストで求められる最小サンプルサイズを満たす必要があります。これらの要因は、対照群と変異株の観察差が偶然によるものではないという十分な信頼と証拠を提供します。

統計的有意性

統計的有意とは、A/B/n検定の結果が偶然によるものではない可能性であり、変異間の差異が有効か単なるランダムな変動かを判断します。Sitecoreは、A/B/nテストで示された改善が、バリアント内で行われた実際の変更によるものであることを保証します。勝つバリアントが宣言されていない場合、それは検定が統計的有意性に達していないためかもしれません。

統計的有意性の一般的な基準は95%です。つまり、結果が正確で、単なる運や偶然によるものではないと95%の確信を持つことができます。同じ条件で100回繰り返した場合、同じ結果は95回出ることが期待されます。

最小サンプルサイズ

十分なサンプルサイズがあれば、A/B/n検定から信頼できる統計的結論が得られます。統計的有意性を得るためには、この最小サンプルサイズを満たす必要があります。

Sitecoreはテストの 目的に基づいて必要な最小サンプルサイズを自動的に計算します。この訪問数の閾値に達しなければ、結果がランダム要因によるものでないとは断言できません。以下のパラメータを調整することで 最小サンプルサイズを編集 できます:

  • Base rate - 制御バリアントの現在の変換率。この率はテストを行う前に正確には分かっていません。過去のマーケティングキャンペーンやA/B/nテストの基準コンバージョン率を参照するのがベストプラクティスです。デフォルトではこの金利は2%に設定されています。基準率を上げると、必要な最小サンプルサイズが減少します。

  • Minimum detectable difference - 基準レートからの最小の変化またはリフトの量。デフォルト値は20%ですが、テスト感度を変更するために調整できます。この値を大きくすると、必要な最小サンプルサイズが減少します。これにより検査の感度は低くなり、より劇的な結果が示されるようになります。

  • Confidence level - 変異間の違いが統計的に有意であることを確認するために必要な一定度。95%の信頼水準は統計的有意性を達成するための標準として認められています。信頼水準を上げると、必要な最小サンプルサイズが増加します。より正確な検査結果が必要で、検査結果が決定的なものになるまでの時間を延ばす覚悟がある場合のみ、これを行ってください。

以下の画像では、Sitecoreがデフォルトのパラメータ値を用いて各バリアントあたり21,110回の訪問を算出しています。

The default minimum sample size is calculated using default values for base rate, minimum detectable difference, and confidence level.
重要

必要な最小サンプル数に達する前にテストを中止しないでください。そうするとテスト結果が無効になります。

勝者の宣言

Sitecoreは、A/B/nテストの 目標 に基づいて指標を用いて勝者を決定します。この目標を定義することで、Sitecoreは分析を自動化し、最も性能の高いバリアントを特定できます。

Sitecoreが勝者と宣言するには、最小サンプルサイズ、検出可能な差、信頼度の基準を満たす必要があります。テストが最小サンプルサイズに達しても他の基準を満たしていない場合、Sitecoreはバリアント間に有意な差がないと判断し、不決定的とみなします。

勝者は3つの条件すべてを満たした場合にのみ宣言されます。勝利したバリアントは、対照バリアントよりも最も高いアップリフトを持つものです。複数のバリアントがテストされた場合、Sitecoreは最も効果の高いバリアントを勝者と宣言します。

この記事を改善するための提案がある場合は、 お知らせください!