[통계] A/B Test: p-value가 뭐길래

PM/PO로 일하다보면 한 번즈음은 꼭 접하게 되는 "p-value". 여러분은 p-value에 대해서 어떻게 생각하시나요? 이는 제가 모 회사 면접에서 실제로 들은 질문입니다.
참고로 저는 "낮으면 낮을수록 좋지요"(멍청) 라고 대답했습니다. 여러분을 그러지 마시라고, 면접 회고할 겸 p-value의 정의, 역할, 한계를 정리해봅니다.

정의

p-value (proabability value)는 귀무가설이 참일 때 관측된 결과값이 발생할 확률을 의미합니다. 다시 말해서, A집단과 B집단의 차이가 없다고 가정할 때, 관측된 결과값, 혹은 그보다 극단적인 결과값이 발생할 확률을 의미합니다. 아래 정규분포 곡선에서 그래프 하단의 영역을 계산하면 p 값이 됩니다.

예시

예를 들어서 당신이 기존에 검은색이었던 버튼의 색을 빨간색으로 바꾸었다고 쳐봅시다. 당신은 버튼의 색이 강렬해져서 버튼 클릭 전환율이 높아질 것이란 기대가 있어요. 그러면 A/B 테스트 설계를 이렇게 하게 됩니다.

[실험 설계 단계]

H0 (귀무가설) - 버튼의 색이 검은 색일 때와 버튼의 색이 빨간색일 때 클릭 전환율 차이가 없을 것이다.
H1 (대립가설) - 버튼의 색이 빨간색일 때 버튼의 색이 검은색일 때 보다 클릭 전환율이 10% 이상 높을 것이다.
통계적 유의수준 - 우리는 p-value가 5% 미만이면 귀무가설을 기각할거에요

[실험 결과 단계]
실험을 돌렸더니 통제군 (검은색)보다 실험군 (빨간색)이 전환율이 12% 높게 나왔어요. p-value는 4%네요. 이는,
버튼의 색이 검은색일 때와 빨간색일 때 클릭 전환율의 차이가 없다고 가정하면, 빨간색의 전환율이 12% 높을 확률이 4% 미만이라는 뜻입니다.

해석

p-value는 귀무가설이 참이라는 전제 하에 관찰된 값이 발생할 확률이다.
즉, 실험 결과값이 얼마나 극단적이냐
5%면 꽤나 낮은 확률이니 극단적이지

구분되는 개념

statistical significance (a, 통계적 유의도)는 실험전에 연구자가 정해놓은 값이다.
Type I error가 발생할 확률의 최대값을 임의로 정한것

p-value 에 대한 가장 흔한 오해

0가설이 참일 확률 (0가설이 참이라고 전제해야함)이라고 오해를 많이 받는데, 아닙니다. 0가설이 참일 때 실험 결과가 발생할 확률을 의미합니다. 같은듯 다르죠. 어렵네요.

p-value의 한계

https://blog.naver.com/youji4ever/221509677731 에 잘 설명되어있습니다.

'Statistics (통계)' 카테고리의 다른 글

[통계] 산술평균, 기하평균 with python (1)	2025.08.31
[통계] 표준편차 (Standard Deviation) 분산 (Variance) 개념과 한계 (0)	2025.08.31
[통계] A/B Test: 단측 검정 (One-tailed)과 and 양측 검정 (two-tailed tests)의 차이, 사례 (1)	2025.08.31
[통계] A/B Test: T test vs Z test 두 집단의 차이를 검증하기 (0)	2025.08.30
[통계] A/B test: Sample Size가 뭐길래 (0)	2025.08.27

므하의 제품 기획장

[통계] A/B Test: p-value가 뭐길래

정의

예시

해석

구분되는 개념

p-value 에 대한 가장 흔한 오해

p-value의 한계

'Statistics (통계)' 카테고리의 다른 글

티스토리툴바

[통계] A/B Test: p-value가 뭐길래

정의

예시

해석

구분되는 개념

p-value 에 대한 가장 흔한 오해

p-value의 한계

'Statistics (통계)' 카테고리의 다른 글

관련글

티스토리툴바