본문 바로가기
Machine Learning (인공지능)/기초

Score & Calibration

by muha0-0 2026. 4. 5.

Score (점수) 란 무엇인가

분류 모델 (Classification Model) 은 결과와 함께 0~1 사이의 숫자를 출력한다. 나는 이것이 확률이라고 생각했으나, 잘못된 생각이었다. 진짜 확률의 조건은 하나다. 모델이 0.7을 출력한 케이스 100개 중, 실제로 70개가 양성이어야 한다. 일기예보로 생각해보자. "비 올 확률 70%"라고 예보한 날 100일 중 실제로 70일 비가 왔다면 진짜 확률이다. 대부분의 모델은 이 조건을 충족하지 않는다.         

 

 

What Score Is Actually For 점수의 진짜 쓸모

점수는 순위 (Ranking) 를 위해 존재한다. 네이버 플레이스 점수와 유사하다고 생각하면 된다. 우리는 식당을 고를 때 별점 4.8과 3.2 중 4.8을 고른다. 4.8이 정확히 무엇을 의미하는지 몰라도, 3.2보다 낫다는 건 안다.

 

예시)

  - Credit Score (신용 점수) → 상환 확률 X%, 다른 사람보다 신용도가 높다는 순위 O

  - Netflix 추천 → 볼 확률 73% X, 이게 저것보다 맞을 것 같다는 순위 O

  - 스팸 필터 → 0.95짜리를 0.60짜리보다 먼저 차단 O          

 

 

Calibration (보정) 이란?                                                      

  체중계가 항상 실제보다 2kg 더 나온다고 해보자. 매일 아침 몸무게를 잰다면, 어제보다 오늘이 더 무거운지는 알 수 있다. 순서는 맞고, 절댓값은 틀렸다. Calibration (보정) 이란 그 체중계를 고치는 과정이다.

                                                                               

  - Platt Scaling (플랫 스케일링): 모델 출력 위에 Logistic Regression (로지스틱 회귀) 한 겹 추가 → 간단하고 빠름

  - Isotonic Regression (등위 회귀): 유연한 곡선 피팅 → 데이터가 충분할 때 더 정밀            

 

 

When Calibration Matters 언제 중요한가

1. 위험 케이스 상위 N개 추리기 : 불필요, 순서만 중요하다

2. 확률 x% 초과시 개입 의사결정: 필요, 절댓값을 믿어야한다

3. 의료 진단 Threshold 설정: 반드시 필요

4. 쿠폰 발송 대상자 선정: 필요, 비용 낭비 방지

 

 

So What — PM이 알아야 할 것

모델 점수로 의사결정을 내리는 순간, Calibration은 바로 PM의 문제가 된다. 

질문 확인사항
모델 점수를 Threshold로 쓰고 있는가? Calibration 여부 반드시 확인 필요
확률 x%이상이면 알림 발송 정책 보정 안 된 점수면 정책 자체가 의미 없음
모델 점수를 사용자에게 직접 노출한다 보정 없이 노출하면 신뢰도 문제 발생
우선순위 정렬만 필요할 경우 없어도 무방