PM을 위한 베이지안 A/B테스트 사용서

Product Management

PM을 위한 베이지안 A/B테스트 사용서

muha0-0 2025. 9. 8. 17:46

PM은 의사결정을 내릴 때 불확실성을 낮추기 위해 추론적 통계기법을 사용할 수 있다. 이 때 어떤 통계기법을 선택할지 (베이지안 혹은 frequenstist) 어떤 기준으로 선택해야할까? 제품의 트래픽 (사용자수), 의사결정에 투자할 수 있는 시간, 그리고 팀의 통계 역량에 따라 다르다.

1. 데이터 활용의 효율성
베이지안 이론은 기본은 사전 분포(prior distribution)에 우도(likelihood)를 곱해 사후 분포(posterior distribution)를 계산하는 것이다. 즉, P(H|D) ∝ P(D|H) × P(H)의 관계를 통해 기존 지식을 새로운 데이터로 업데이트한다.
따라서, 베이지안 통계 기법을 활용하면 과거의 실험이나 전문 지식을 보다 적극적으로 활용해 불확실성을 극복할 수 있다. 나아가, 더 적은 표본으로도 의미있는 결과를 도출할 수 있어, SaaS 같이 DAU가 100이 나올까 말까 (경험담) 하는 제품에도 사용해볼 수 있다. 사용자 수가 많더라도, 실험에 필요한 사용자 수를 줄여 팀이 더 빠르게 효율적으로 의사결정을 내릴 수 있다.
단, 사전 분포 선택이 부적절하면 결과가 왜곡될 수 있으므로, 도메인 지식이 충분하지 않은 경우에는 전통적인 방법이 더 안전할 수 있다.

2. 결과 해석의 직관성
'새로운 기능을 사용자들이 더 좋아할 확률이 80%에요'라고 이해관계자들에게 전달하는 것이 'p-value가 3%에요'라고 이야기하는 것 보다 훨씬 직관적이다. 어쨌든 PM은 이해관계자들과 소통하는 것이 주 업무이기 때문에 어떻게라도 더 쉽고 직관적으로 결과와 상황을 이해관계자들에게 전달하고 싶어한다. 상황에 따라서는 베이지안 통계 기법으로 결과를 전달하는 것이 더 설득력 있을 수도 있다. 나아가, 신기능의 우수성을 직접적으로 측정하는 것 처럼 느껴질 수도 있다.

3. p-value 한계 극복
p-value로만 A/B 테스트 의사결정을 내리기에는 p-value의 한계가 다소 명확하다. 일단 표본의 크기가 커질수록 p-value가 낮아질 확률이 높기 때문에 많은 과학자들이 p-hacking으로 p 값을 임의로 5% 정도로 맞추기도 한다. 결과값이 의미가 있는지 없는지도 역시 임의로 정하기 때문에 (5%) 사실 이것이 정말 정확하고, 주관이 배제된 결과라고 단언하기는 어렵다.
하지만 베이지안 방법도 만능은 아니다. MCMC 같은 계산이 복잡하고 시간이 오래 걸릴 수 있으며, 특히 고차원 데이터에서는 수렴 진단이 필요하다. 또한 규제 산업이나 학술 연구에서는 여전히 frequentist 방법을 요구하는 경우가 많다.

4. 그래서 언제 뭘 써야 할까?
Microsoft의 Kohavi가 『Trustworthy Online Controlled Experiments』에서 제시한 기준에 따르면, Variant당 사용자가 1000명 미만일 때는 베이지안을 고려해볼 만하다. 특히 Evan Miller가 “How Not to Run an A/B Test”에서 지적한 ‘peeking 문제’ - 실험 중간에 결과를 보고 섣불리 중단하는 것 - 를 피하고 싶다면 베이지안이 유리하다. 실시간으로 결과를 모니터링하면서도 통계적 타당성을 유지할 수 있기 때문이다.
반대로 DAU가 충분하고 (수만 이상), 일회성 의사결정이며, 팀에 통계 전문가가 없다면 전통적인 t-test가 더 안전할 수 있다. 특히 금융이나 의료 분야처럼 규제 기관에 결과를 제출해야 한다면, 아직까지는 frequentist 방법이 표준이다.

결국 PM으로서는 ‘우리 제품의 트래픽 규모가 어느 정도인가’, ‘얼마나 빨리 결정을 내려야 하는가’, ‘팀의 통계 역량이 어느 정도인가’를 종합적으로 고려해야 한다.

[활용하기 좋은 도구]

베이지안 A/B 테스트 계산기: https://www.statsig.com/bayesianCalculator

끝.

출처
- https://www.statsig.com/perspectives/practical-bayesian-tools-experimentation

Practical Bayesian tools for product experimentation

Bayesian methods enhance product experiments by capturing user behavior nuances, improving decision-making, and boosting efficiency.

www.statsig.com

- https://towardsdatascience.com/bayesian-experimentation-methods-for-products-636514951e43/

Bayesian experimentation methods for products | Towards Data Science

A non technical look at why bayesian AB testing is a better way to model user interactions with your product

towardsdatascience.com