본문 바로가기
Statistics (통계)

[통계] 베이즈 확률론 (Bayesian Probability) 기본

by muha0-0 2025. 9. 8.

통계는 불확실성에 관한 이론이다. 이 불확실성을 바라보는 두 관점이 있다. 하나는 "p-value"라는 상징적 마스코트를 가진 빈도학파 확률 (Frequentist Probability)이고, 다른 하나는 이 글에서 중점적으로 다룰 베이즈 확률 (Bayesian Proabability)이다. 이 두 확률론은 불확실성을 바라보는 관점이 근본적으로 다르다
 
빈도학파 확률는 영가설 (H0)이 참일 것을 전제 했을 때 주어진 데이터셋의 장기적인 확률 (long-run probability), 즉 실험에서 관측된 데이터셋과 다른 또 다른 데이터셋이 같은 현상을 보여줄 확률을 다룬다. 반면, 베이지안 확률 주어진 데이터셋에 기반했을 때 특정 가설이 참일 확률을 다룬다. 베이지안 확률은 '사전에 주어진 정보'를 기반으로 사후의 판단을 바꾸는 반면, 빈도주의 확률은 오로지 데이터만 사용해 불확실성을 예측한다. 그래서 빈도주의적 통계기법을 통한 불확실성 관측은 베이지안 통계기법보다 많은 양의 데이터를 필요로 한다. LLM, ML 등의 시스템이 토큰값을 아끼기 위해 베이지안 통계를 사용하는 주된 이유이기도 하다. 나도 예전에 SaaS 제품의 A/B 테스트 실험 기간을 줄여보려고 베이지안 통계 기법을 어설프게나마 사용했던 경험이 있다. 
 
베이지안 통계기법은 주어진 가설이 참일 확률을 계산하기 때문에 빈도주의 통계기법에 비해 이해하기 쉽다. p-value에 대한 대표적인 오해 중 하나가 '영가설이 참일 확률'인 이유도, 주어진 가설이 참일 확률을 계산하는 것 (베이지안)이, 가설이 참임을 전제할 때 현상이 발생할 확률을 계산하는 (빈도주의적) 것 보다 더 직관적이기 때문일 것이다. 

  빈도학파 (Frequentist) 베이지안 (Bayesian)
True로 전제 H0 (영가설) 주어진 데이터셋 (사전 정보, Prioir information)
불확실성의 영역 주어진 데이터셋 ('샘플링이 정확하게 됐나?') 가설 (데이터에 기반했을 시 주어진 가설이 참일 확률은 n%이다) 

 
간단하게 정리하자면 두 접근 방법의 근본적인 차이는 참으로 전제되는 것과 불확실한 것으로 전제되는 것의 기준에서 비롯된다. 빈도학파 확률은 영가설이 참일 것을 미리 전제한 이후 데이터를 표본으로 수집한다. 그리고 주어진 표본 (Sampling)이 얼마나 모집단을 대표하는지, 아니면 극단적인 값인지를 판단한다. 이와 반대로 베이지안 확률은 데이터 (표본)을 고정된 값으로 보고 가설을 불확실한 것으로 둔다. 베이지안 접근이 더 직관적인 이유는, 일반적으로 우리가 관찰할 수 있는 데이터값이 한정되어있고, 가설에 비해 더 현실적이기 때문일 것이다. 

토마스 베이즈 선생. 에딘버러 대학교 출신이라 함.

 
 
베이지안 통계기법의 가장 대표적인 활용 사례는 이메일의 스팸 분류이다 (is this email a spam?). 이메일의 길이나 첨부파일 여부 등 스팸 판단 여부에 활용되는 다양한 변수는 일단 생각하지 말고, 단순하게 생각해보자. 당신은 아래의 관찰된 정보값에 대한 100% 확신이 있다. 

이메일이 스팸일 확률은 20%이다 
'돈'이란 단어가 이메일에 등장할 확률은 15%이다
'돈'이란 단어가 스팸 이메일에 등장할 확률은 40%이다
이 때 '돈'이란 단어가 들어간 이메일이 스팸일 확률은..?

 
이 때 이를 P(A|B) = P(B|A) * P(A) / P(B)인 베이진안 공식에 대입해보자면, P (Spam | Money) = P(Money | Spam) * P(Spam) / P(Money)이 된다 (p.s. '돈'이 등장했을 때 'Spam'일 확률이 P(Spam | Money)). 계산해보면: 
 

P (Spam | Money) = P(Money | Spam) * P(Spam) / P(Money) = 0.4 * 0.2 / 0.15 = 0.53333, or about 53.3%.

 
따라서, '돈'이란 단어가 들어간 이메일이 스팸일 확률은 53.3% 정도라고 생각하면 된다. 아주 쉽지 않다. 
사실 베이지안 추론 기법은 PM보다는 ML 과학자나 의학자들이 더 많이 사용한다고 한다. 다행이다. 끝.
 
2022년에 사용자 만족도를 더 적은 데이터로도 유추할 수 있는 방법에 대한 논문이 나왔는데, 이것은 일단 나중에 읽어보기로. 진짜끝.
 
 
 
 
 
 
 
 
 
출처