상세 컨텐츠

본문 제목

《데이터 분석가의 숫자유감》 4화 확률과 분포 : 그때는 맞고 지금은 틀린가?

아티클

by 잡학툰 2024. 2. 19. 20:08

본문

 

 

확률은 사람들의 삶 곳곳에 침투해 있다. 매일 아침 출근길에 하나씩 로또를 사며 로또가 당첨될 ‘확률’을 생각한다. 오늘 점심에 비가 올 ‘확률’을, 퇴근길에 지하철을 한 번에 탈 수 있을 ‘확률’을, 저녁에 집에 가서는 게임 가챠(뽑기 형태의 아이템)에서 좋은 카드를 뽑을 ‘확률’을 떠올린다. 그래서 우리는 확률에 매우 익숙하다. 오늘 비가 올까? ‘그럴 가능성이 높아보인다’. 오늘은 가챠로 한정 아이템이 나올까? ‘그럴 확률이 낮아 보인다’. 지구가 평평할까? ‘그럴 가능성은 지극히 낮지’라는 대답을 한다. 그리고 만약 비가 왔다면 ‘오늘은 일기예보가 맞네’라고 말한다. 이런 말은 결국 어떤 사건에 대한 가부를 묻는 형태가 된다.

 

이때 계속 사용하고 있는 ‘확률’이란 무엇일까? 확률에 대한 해석은 다소 다양하지만, 일단 표준국어대사전에 나오는 ‘일정한 조건 아래에서 어떤 사건이나 사상(事象)이 일어날 가능성의 정도’라는 정의를 사용한다고 하자. 이 정의하에서 ‘매일 접속하는 게임에서 오늘 A라는 아이템이 나올 확률은 0.01%다’라는 것을 알고 있다고 해보자. 하지만 이는 이전에 언급했던 것처럼, 항상 10,000개의 아이템 중 1개의 아이템이 나오는 것을 보장하는 것이 아니다(실제 중국에서는 확률형 아이템에 대해 일정 횟수당 해당 아이템이 확률만큼 나오는 것이 보장되어야 한다고 해서 논란이 일어났던 적이 있다). 대략 10,000번씩 아이템 뽑기를 해봤을 때 어떤 때는 1번, 어떤 때는 3번, 어떤 때는 1번도 나오지 않을 수 있다. 이렇게 동일한 상황에서 여러 번 시행한 결과를 통해 시행 결괏값의 평균과, 각각의 시행 결괏값이 이렇게 구한 평균에서 얼마나 멀리 떨어질 수 있는지를 파악할 수 있다.

 

이때 시행 결괏값의 평균을 0과 1 사이로 나타낸 것을 ‘확률’이라고 하고, 확률이 어떤 모습으로 퍼져 있는지를 나타내는 것을 ‘분포’라고 한다. 분포의 모양새를 보고 특정 값이 얻어질 확률을 파악할 수 있다. 예를 들어 (아무런 장치가 되어 있지 않은) 주사위를 하나 굴릴 때 얻을 수 있는 값의 확률은 1부터 6 까지 동일하다. 주사위를 굴려 2가 나올 확률은 1/6이다. 이에 대한 확률 분포는 일종의 수평선을 그리는 형태로 나타난다. 아마도 열 번 주사위를 굴리면 1은 한 번, 2는 두 번, 3은 한 번... 식으로 나타날 수 있다. 하지만 수백 번 주사위를 던지면 각 값에 대한 확률은 대략 1/6에 가깝게 맞춰질 것이다.

 

 

 

이는 실제 상황에서도 비슷하다. 그래서 동일한 환경에서 다회 실행된 결과를 모아 어떤 분포로 만들고 확률을 구해서, ‘이러이러할 확률은 대략 어느 정도 된다’라고 이야기한다. 수년간의 8월 기상 데이터를 모아서 ‘8월에는 평균 9일 비가 온다’라고 말할 수 있다. 기존 결과가 없는 상태에서 어떤 확률을 구할 때는 사건을 임의로 일으켜 데이터 집합을 만들기도 한다. 이런 용도로 사용되는 기법으로 A/B 테스트가 있다. 그래서 A와 B가 평균 10% 차이로 A가 더 높았고 대략 전환율이 3%라는 결과가 정말로 확실하다고 해도(실제 상황에서는 이미 환경이 동일하지 않을 여러 변수가 있지만 무시한다고 해도), 실제로는 전환율이 훨씬 낮게, 혹은 더 높게 나오는 날도 존재할 수 있다. 다만 아주 오래 이를 두고 보면, 수학자 베르누 이가 말한 ‘큰 수의 법칙’을 따라 그 비율은 3%에 가까워질 수 있을 것이 다. 확률은 지나간 사건의 결과를 보상해주지 않는다. 동전 앞면이 세 번 나왔다고 해도, 다음에 뒷면이 세 번 나오지는 않는다. 하지만 사건의 반복을 통해 쌓이는 데이터는, 흙탕물에 맑은 물을 붓는 것처럼 이런 불균형을 정돈할 힘을 가지고 있고, 많은 기록이 지나간 후에는 대략 동전 앞면이 50%, 뒷면이 50%에 가까워지 게 된다.

 

개별 사건에 대해서 확률 분포의 평균값이 늘 나오지는 않겠지만, 장시간 두고 보았을 때 해당 분포의 형태로 수렴할 것을 기대하며 실험을 하고, 분포와 신뢰구간을 사용해서 예측을 한다. 데이터 분석가가 신내림을 받지 않는 한, 데이터 분석을 통한 예측으로 ‘내일 5명이 A 아이템을 가져갈 것이다’라는 식으로 답을 낼 수도 없고, 낸다고 해도 맞지도 않을 것이다. 굳이 답을 낸다면 ‘내일 이번 달 주말 평균 접속자 수인 10만 명이 접속한다 는 전제하에 평균 5명이 A 아이템을 가져갈 것이고, 이에 대한 95% 신뢰 구간은 [1.2, 8.5]이다’ 같은 복잡하고 애매한 답을 낼 것이다. 하지만 많은 사람은 빠르고 쉽게 이해되는 결과를 원하고, 문제와 과정에 상관없이 자 신이 이해할 수 있는 답을 주기를 원한다. 하지만 세상의 이치가 본인의 입 맛에 맞춰줄 수는 없는 노릇이다.

 

우리는 로또를 50번 샀는데 ‘왜 5등조차 한 번도 안 되는가?’에 대해서, ‘왜 안되지?’라고 속으로는 생각해도 그 결과를 따지러 복권위원회에 전화를 하지는 않는다(실제로 5등에 당첨될 확률은 2.2% 정도 된다). 어딘가 에는 당첨된 사람이 있고, 각 번호가 뽑힐 확률은 동일하며, 5등 당첨자 수는 항상 일정하지는 않으나 대략 비슷할 것이다. A가 B보다 높을 확률이 60%라고 해도, 오늘은 A가 B보다 낮은 값이 나올 수도 있음을 안다. 그리 고 이 글을 쓰면서도 나는 다시금 흐릿하기 짝이 없는 일확천금의 꿈을 꾸며, 내가 5등이나마 당첨될 확률은 극히 낮다는 사실을 알고 있으면서도 내일은 로또를 사야겠다고 생각하는 것이다.

관련글 더보기