본문 바로가기
Product Management

A/B 테스트의 A to Z

by muha0-0 2025. 8. 29.

내가 공부하고 배우고 실행한 A/B 테스트의 모든것
 

1. 목표를 수립하고 문제를 정의한다

실험을 왜 하는지, 어떤 비즈니스 목표를 달성하고, 어떤 사용자 문제를 해결하고자 하는지를 정의하는 부분이다. 이 목표에 따라 검증할 가설, 기대하는 측정 결과 등이 결정된다. 광고같이 매출에 즉각적인 영향을 미치는 도메인의 경우, Revenue Impact까지 측정하고, 아니면 보통 North Star Metric의 영향도 혹은 OKR을 중심으로 설계한다. 

 
2. 가설을 수립한다

귀무가설과 대립가설을 수립한다. 귀무가설 (H0)은 실험군과 통제군에 아무런 차이가 없다는 것을 전제로 하고, 대립가설은 실험군과 통제군 사이에 차이가 있다는 것을 전제로 한다. 
그런데 왜 굳이 귀무가설을 기각 시키는 방식으로 실험을 하냐? 이게 궁금해서 찾아본 이후 아래의 글에 적어보았다. (궁금한 분들은 참고하시길..)

귀무가설 vs 대립가설 : A/B 테스트의 본질은 간접 검증

귀무가설 (Null Hypothesis) 과 대립가설 (Alternative Hypothesis) 의 정의귀무가설 (歸無假說, Null Hypothesis, 영가설)가설 검증에서, 표본에 의하여 그 진위가 검증되어야 할 가설. 두 모수치 사이에 차이가

muhaproductplanner.tistory.com

 

 

  • H1: Because users are abandoning their carts due to lengthy forms (problem), simplifying the checkout form to only 3 fields (solution) will increase the purchase completion rate by at least 10% (expected outcome)
  • 포함되어야 하는 정보:
    • Problem Statement: 어떤 비즈니스 혹은 사용자 문제를 해결하는가
    • Proposed Solution: 어떤 솔루션을 테스트하는가
    • Expected Outcome: 어떤 측정 가능한 결과를 기대하는가?
    • 확인사항 - Single Variable Focus: 하나의 변수만 측정하는가? 

3. 실험 종류 및 지표를 설계한다


상황에 따라 베이지안 기법 혹은 빈도주의 기법 중 하나를 선택하는 것이 필요할 수도 있다. 선택 기준은 아래의 글에 정리해보았다.

PM을 위한 베이지안 A/B테스트 사용서

PM은 베이지안 혹은 frequenstist 방법을 어떤 기준으로 선택해야할까? 제품의 트래픽 (사용자수), 의사결정에 투자할 수 있는 시간, 그리고 팀의 통계 역량에 따라 다르다. 1. 데이터 활용의 효율성

muhaproductplanner.tistory.com


  • 성공지표 (Primary Metric)와 보조지표 (Sub Metric)을 설정한다
  • 최소 측정 가능 효과 (MDE, Minimum Detectable Effect)를 정의한다. 테스트가 얼마나 민감해야 하는지를 알 수 있다.
  • 신뢰수준 (Confidence Level) - 실험의 임팩트가 최악, 최선일 때 어떻게 의사결정 할 것인가
  • 통계적 유의도 (SIgnificance Level, a)를 정의한다. Type 1 오류가 발생할 수 있는 최대 확률을 의미한다. 보통 5%로 정의된다.
  • 검정력 (Power, 1-β)를 정의한다. 효과가 있을 때 이를 집계하는 확률을 의미하며 (Type 2 오류 방지), 보통 80%로 정의된다. 
  • 가드레일 지표 (Gaurdrail Metrics): 서비스에 악영향을 주는 지표

검증하려는 가설이 비즈니스적으로 의미가 있는지 판단하고 실험 진행 여부를 결정해야한다. 백로그 우선순위를 결정하는 프레임워크 중 하나인 ICE (Impact, Confidence, Effort)에서 Impact 가 충분히 의미 있어야한다는 것이다.

 

예를 들어 통제조건 A의 구매 전환율이 3%, 실험군 B의 구매 전환율이 3.5%이고, p=0.01 일 경우를 생각해보자. p 값이 설정해둔 통계적 유의도보다 낮으니 실험은 통계적으로 유의하다. 이 실험을 진행한 서비스의 DAU가 2천명, ARPPU (Average Revenue Per Paying User)가 1만원이라고 가정하면, 조건 B에 따라 구매전환율이 0.5% 개선되면 일 10만원의 추가 매출이 발생한다 (2,000 x 0.005 x 10,000). 반면 DAU가 100만명, ARPPU가 1만원인 서비스라면 똑같은 실험을 통해 일 5,000만원의 추가 매출이 발생할 수 있다.
 
즉 AB 테스트의 가치는 단순히 테스트 자체의 결과로 인해 얻어지는 p값 외에 실험이 실질적으로 효과를 미치는 크기나 영향력을 고려해서 판단해야한다. 다양한 기능 후보군 중, 가장 비즈니스적으로 임팩트가 클 것으로 예상되는 기능을 중심으로 A/B 테스트를 돌리지 않으면, PM은 개발팀의 시간과 에너지를 낭비하게 될 지도 모른다. 5천만원짜리 기능일지, 10만원짜리 기능일지를 판단하는 것이 PM의 역할인 것이다. 

 

품질 좋은 가설, 즉 비즈니스 임팩트가 높을 것으로 예상되고 이에 대한 충분한 근거 (Confidence) 가 있는 가설을 설정하는 방법은 <실리콘벨리의 실험실>과 <Evidence Guided>이란 책에 자세히 설명된 것들을 적어두었다. 

<Evidence Guided> - 근거에 기반해 제품 만들기

부제: Creating High Impact Products in the Face of Uncertainty Quod gratis asseritur, gratis negatur(What can be asserted without evidence can be rejected without evidence) The GIST Model GIST model은 구글 출신 Product Manager이자 Product Consulta

muhaproductplanner.tistory.com

 
만약에 검증하려는 대체가설의 방향성 (증/감)에 대한 확신이 있다면 Type 2 (False Negative) 오류의 확률을 줄이기 위해 단일 검정 테스트를, 방향에 확신이 없다면 Type 1 (False Positive)의 영향력까지 종합적으로 계산하는 양측 검증을 사용하는 것이 좋다.
 
관련 내용은 여기에 정리해봤다

[통계] A/B Test: 단측 검정 (One-tailed)과 and 양측 검정 (two-tailed tests)의 차이, 사례

A/B 테스트를 설계할 때 내가 가지고 있는 가설을 검증하기 위해서 단측 검정 (One-tailed, 꼬리 하나)와 양측 검정 (Two-tailed, 꼬리 두개)를 사용할 수 있다. One-tailed and Two-tailed test우선 단측 검정과

muhaproductplanner.tistory.com

 
 

4. 필요한 Sample Size를 측정한다

위에서 정의한 4가지 변수 (성공지표, MDE, Significance Level, Power)를 기반으로 통제군과 실험군 각각에 어느정도 수준의 샘플 사이즈가 필요한지 계산한다. 온라인으로 계산할 수 있다. (예시: https://www.optimizely.com/sample-size-calculator/#/?conversion=3&effect=20&significance=95)
 

 

5. 실험 기간을 계산한다

트래픽을 기반으로 Sample Size가 모두 채워질 때 까지 어느정도 기간동안 실험을 진행해야하는지 파악한다.

 
6. 실험을 돌린다

사전에 정의해둔 기간동안만 실험을 돌리며, 중간에 확인하지 않는다. 일반적으로 표본의 크기가 커질수록 p값의 크기가 작아지기 때문에 너무 오랜 기간동안 실험을 돌리는 것 역시 부정확한 결과를 초래할 수 있다. 

 
7. 결과 (p-value, Confidence Interval)을 분석한다

  • p-value와 사전에 정의한 통계적 유의도를 비교해, p-value가 통계적 유의도보다 낮은지 확인한다. 
  • Confidence Interval을 통해 매출 영향도를 확인하고, 배포 의사결정을 한다.

(CI에 대한 내용은 여기에 정리해둠)

신뢰구간 (Confidence Interval)

신뢰구간 (Confidence Interval, 信賴區間) 모수가 포함될 것으로 예측되는 범위로 이 구간 안에 실제 모수가 들어갈 확률을 신뢰수준(예: 95%)으로 표현한다. 통계 세계관의 대부분의 액션은 모집단 (Po

muhaproductplanner.tistory.com

 

참고로, 나는 전회사에서 Amplitude를 사용했는데, Amplitude에는 아래와 같은 한계가 있다는 것을 퇴사후 알게 되었다. ^_^ (다른분들도...참고하시길)

[Product Metric] 앰플리튜드 (Amplitude)가 A/B 테스트를 계산하는 방법

내가 다니던 회사는 Amplitude를 사용해 A/B 테스트의 통계적 유의도를 확인했다. Baseline (주로 통제군)을 기준으로 변화량이 얼마나 되며, 해당 변화량이 통계적으로 유의한지 초록 문자 혹은 붉은

muhaproductplanner.tistory.com

 
 
 
 

용어 정리

Minimum Detectable Effect (MDE)The smallest effect size that the test is designed to detect as meaningful.
Sample SizeNumber of users per group needed to detect the MDE with required confidence and power.
Significance Level (α)Threshold (e.g., 0.05) indicating risk of false positive (Type I error).
Power (1-β)Probability (e.g., 80%-90%) of correctly detecting a true effect, avoiding false negatives.
p-valueProbability that observed results happened by chance given null hypothesis is true.