본문 바로가기
Product Management

[Product Metric] 앰플리튜드 (Amplitude)가 A/B 테스트를 계산하는 방법

by muha0-0 2025. 8. 30.

내가 다니던 회사는 Amplitude를 사용해 A/B 테스트의 통계적 유의도를 확인했다. Baseline (주로 통제군)을 기준으로 변화량이 얼마나 되며, 해당 변화량이 통계적으로 유의한지 초록 문자 혹은 붉은 문자로 보여주곤 했다. 통계적으로 유의하면 "This Test Is Statistically Significant"라고 친절하게 알려줬으며, 100에서 p-value를 뺀 값을 보여줬다. 
 

Amplitude AB 테스트 결과 비교표

 
 
AB 테스트에서 통계적 유의도 계산하기
기본적으로 통계적 유의도는 p-value (귀무가설이 참이라고 전제할 때 관측된 값 혹은 그 값보다 극단적인 값이 보여질 확률)이 사전에 정해놓은 통계적 유의도 (Significance Level)보다 낮으면 성립되며, 우리는 이 때 귀무가설을 기각한다.
 
정확한 값을 얻기 위해서는 최소 기대 효과값 (MDE)와 트래픽을 기반으로 한 집단별 샘플 사이즈를 구해야한다. 왜냐하면, p-value는 모수가 커지면 작아지는 경향성이 있기 때문이다. 
 
그런데 나는 Amplitude로 AB 테스트를 설정할 때 단 한번도 MDE나 significance level을 입력해본 적이 없다. 그냥 모수 차는지 직접 확인해야했다 (peeking problem issue). Amplitude가 알아서 계산하는 것이다...!! 그렇다면 무슨 근거로..??? 
 
Amplitude가 계산하는 통계적 유의도
앰플리튜드는 고정된 통계적 유의도와 고정된 Sample Size로 귀무가설 기각 여부를 결정한다. 

  • 일단 디폴트로 Type I error의 마지노선을 5%로 잡는다 (p< 0.05)
  • 집단별 최소한의 샘플 사이즈 (최소 30개), 5 conversion variant, 5 non-conversion variant 

여기서 이 30이라는 숫자는 통계학에서 널리 사용되는 ‘중심극한정리(Central Limit Theorem)’에 기반한 규칙이다. 중심극한정리에 따르면, 표본 크기가 약 30개 이상이면 표본 평균의 분포가 정규분포 모양을 띠게 되어, 통계적 검정에 필요한 정상성 가정을 충족할 가능성이 높아진다. 즉, 30개의 샘플은 일반적으로 통계검정에서 신뢰성 있는 결과를 얻기 위한 최소한의 표본 수이다. 하지만 여기서 중요한 포인트는 "30개"가 완벽한 숫자가 아니라 "최소한"의 표본수라는 점이다.  딱히 정확하지는 않다는 뜻인 것 같다. 

통계적 엄밀함을 중요하게 따지는 조직이라면 아마 직접 MDE, Sample Size, 신뢰도, 실험 기간을 잡아서 진행할 것 같다.
 
출처: https://amplitude.com/docs/faq/statistical-significance