[Product Metric] 앰플리튜드 (Amplitude)가 A/B 테스트를 계산하는 방법

내가 다니던 회사는 Amplitude를 사용해 A/B 테스트의 통계적 유의도를 확인했다. Baseline (주로 통제군)을 기준으로 변화량이 얼마나 되며, 해당 변화량이 통계적으로 유의한지 초록 문자 혹은 붉은 문자로 보여주곤 했다. 통계적으로 유의하면 "This Test Is Statistically Significant"라고 친절하게 알려줬으며, 100에서 p-value를 뺀 값을 보여줬다.

AB 테스트에서 통계적 유의도 계산하기
기본적으로 통계적 유의도는 p-value (귀무가설이 참이라고 전제할 때 관측된 값 혹은 그 값보다 극단적인 값이 보여질 확률)이 사전에 정해놓은 통계적 유의도 (Significance Level)보다 낮으면 성립되며, 우리는 이 때 귀무가설을 기각한다.

정확한 값을 얻기 위해서는 최소 기대 효과값 (MDE)와 트래픽을 기반으로 한 집단별 샘플 사이즈를 구해야한다. 왜냐하면, p-value는 모수가 커지면 작아지는 경향성이 있기 때문이다.

그런데 나는 Amplitude로 AB 테스트를 설정할 때 단 한번도 MDE나 significance level을 입력해본 적이 없다. 그냥 모수 차는지 직접 확인해야했다 (peeking problem issue). Amplitude가 알아서 계산하는 것이다...!! 그렇다면 무슨 근거로..???

Amplitude가 계산하는 통계적 유의도
앰플리튜드는 고정된 통계적 유의도와 고정된 Sample Size로 귀무가설 기각 여부를 결정한다.

일단 디폴트로 Type I error의 마지노선을 5%로 잡는다 (p< 0.05)
집단별 최소한의 샘플 사이즈 (최소 30개), 5 conversion variant, 5 non-conversion variant

여기서 이 30이라는 숫자는 통계학에서 널리 사용되는 ‘중심극한정리(Central Limit Theorem)’에 기반한 규칙이다. 중심극한정리에 따르면, 표본 크기가 약 30개 이상이면 표본 평균의 분포가 정규분포 모양을 띠게 되어, 통계적 검정에 필요한 정상성 가정을 충족할 가능성이 높아진다. 즉, 30개의 샘플은 일반적으로 통계검정에서 신뢰성 있는 결과를 얻기 위한 최소한의 표본 수이다. 하지만 여기서 중요한 포인트는 "30개"가 완벽한 숫자가 아니라 "최소한"의 표본수라는 점이다. 딱히 정확하지는 않다는 뜻인 것 같다.

통계적 엄밀함을 중요하게 따지는 조직이라면 아마 직접 MDE, Sample Size, 신뢰도, 실험 기간을 잡아서 진행할 것 같다.

출처: https://amplitude.com/docs/faq/statistical-significance

'Product Management' 카테고리의 다른 글

Is LLM the Cure for Loneliness Epidemic? (0)	2025.08.31
[Product Metric] 리텐션 (Retention) 측정 방법 3가지 (1)	2025.08.30
귀무가설 vs 대립가설 : A/B 테스트의 본질은 간접 검증 (0)	2025.08.30
A/B 테스트의 A to Z (1)	2025.08.29
AI 정신병 (AI psychosis) - AI 서비스 다크패턴 (1)	2025.08.28

므하의 제품 기획장

[Product Metric] 앰플리튜드 (Amplitude)가 A/B 테스트를 계산하는 방법

'Product Management' 카테고리의 다른 글

티스토리툴바

[Product Metric] 앰플리튜드 (Amplitude)가 A/B 테스트를 계산하는 방법

'Product Management' 카테고리의 다른 글

관련글

티스토리툴바