A/B 테스트를 설계할 때 내가 가지고 있는 가설을 검증하기 위해서 단측 검정 (One-tailed, 꼬리 하나)와 양측 검정 (Two-tailed, 꼬리 두개)를 사용할 수 있다.
One-tailed and Two-tailed test
우선 단측 검정과 양측 검정의 차이를 정리해보자. 두 검정 모두 귀무가설 (Null Hypothesis)와 대립가설 (Alternative Hypothesis) 의 비교 테스트 중 발생하지만, 대립가설이 무엇을 서술하냐에 따라 결과값이 달라진다. 따라서 어떤 비즈니스 가치를 검증하냐 (불확실성이 높은 신기능 or 광고 캠페인으로 인한 수익 향상 등)에 따라 최적화된 실험 방식이 달라질 수 있다.
양측 검정 (Two-tailed) 테스트는 귀무가설에 서술된 값이 모수 (parameter)의 값과 일치하지 않을 때 (같지 않을 때) 발생한다. 예를 들어 모 기업에서 두 가지 종류의 랜딩페이지 A와 B의 구매 전환율을 실험한다고 해보자.
- 귀무가설: A와 B의 구매 전환율은 같을 것이다.
- 대립가설: A와 B의 구매 전환율은 다를 것이다.
- 통계적 유의도: 5%
그 이후, 당신은 설문조사의 분포값을 그래프로 확인한다. 당신의 통계값의 z-score는 1.75이고, 양측 검정이기 때문에 p-value, 즉 귀무가설이 참이어서 해당 관측값이 보여진 확률은 는 z의 절대값이 1.75 이하일 때 이다. 양측 검정에서는 p-value가 곡선의 양 쪽 끝 모두에 존재하기 때문에 왼쪽 끝과 오른쪽 끝의 영역을 합산하면 된다. 이렇듯, 양측 검정의 p-value는 단측 검정의 2배이다. 이 경우 p-value = 0.4 + 0.4 = 0.8 이고, 이 값은 사전에 설정한 통계적 유의도에 비해 높기 때문에 귀무가설을 기각하는데 실패한다.
다시 말해서, 양측 검정은 실험군의 값이 통제군의 값보다 큰 경우와 작은 경우를 모두 측정하기 때문에 귀무가설을 기각하기가 조금 더 어려워지며, 실험군의 전환율이 통제군과 비교했을 때 더 높거나 더 낮은 경우의 확률을 모두 확인할 수 있다.

단측 검정 (One-Tailed) 테스트는 반면, 대립가설이 한 방향으로의 차이만을 측정할 때 ('값이 늘어날 것이다' 혹은 '값이 줄어들 것이다') 만을 검증한다. 예를 들어, '새로운 웹 페이지 디자인이 과거의 웹 페이지 디자인보다 전환율이 높을 것이다'라는 가설을 검증할 때는 단측 검정을 사용할 수 있다. 하지만 이럴 경우, 새로운 웹 페이지 디자인이 과거의 웹 페이지 디자인보다 전환율이 낮을 확률은 측정해내지 못한다는 한계가 있다. 다시 말해, 단측 검정은 한 방향으로의 변화가 통계적으로 유의한지 확인할 수 있지만, 다른 방향으로의 변화는 검증해내지 못한다는 뜻이다.
그럼에도 불구하고 실험 설계자가 단측 검정을 활용하는 이유는:
- 첫번째, 귀무가설을 더 쉽게 기각할 수 있기 때문에, 즉 변화에 더 민감하기 때문에 모수 (Sample Size)가 적을 때에도 통계적 유의도를 쉽게 관측할 수 있다.
- 두번째, 방향에 대한 확신이 있고, 그 증가량만 확인하는 것이 목적이라면 효과가 없다고 판단하는 오류 (Type II) 를 덜 범하기 때문에 더 정확하게 측정할 수 있다.
따라서 실험 설계자는 실험의 목적, 상황, 방향에 대한 자신감, 그리고 모수의 양과 같은 것을 종합적으로 고려해 실험을 양측 검정으로 할지 단측 검정으로할지 결정할 수 있을 것이다.
요약
| 종류 | 검증하는 것 | 민감도 | 사용 예시 | 비즈니스 사용 예시 |
| 양측 검정 | 모든 차이 | 보수적, 실험군과 통제군 사이의 차이에 덜 민감하다. | Baseline으로부터 좋아질지 안좋아질지 확신이 없을 경우 | 임팩트가 불확실한 신 기능의 전환율이 어떻게 되려나? |
| 단측 검정 | 한 방향으로의 차이 | 민감, 실험군과 통제군 사이의 차이에 더 민감하다. | 한 방향으로의 개선이 확실한 경우 | 광고 캠페인으로 수익률이 얼마나 증가하는가? |
'Statistics (통계)' 카테고리의 다른 글
| [통계] 산술평균, 기하평균 with python (1) | 2025.08.31 |
|---|---|
| [통계] 표준편차 (Standard Deviation) 분산 (Variance) 개념과 한계 (0) | 2025.08.31 |
| [통계] A/B Test: T test vs Z test 두 집단의 차이를 검증하기 (0) | 2025.08.30 |
| [통계] A/B test: Sample Size가 뭐길래 (0) | 2025.08.27 |
| [통계] A/B Test: p-value가 뭐길래 (0) | 2025.08.26 |