상세 컨텐츠

본문 제목

《데이터 분석가의 숫자유감》 1화 상관관계와 인과관계 : 광고 덕분에 DAU가 늘었다?

아티클

by 잡학툰 2024. 2. 19. 18:29

본문

 

데이터 분석가의 숫자유감
골든래빗 출판사
 권정민 만화 주형

 

사람들은 문제를 해결하기 위해 숫자를 사용해서 문제와 관련된 사실을 그려내고, 그 숫자 간에 어떤 관계가 맺어지는 것처럼 보이면 이를 토대로 결론을 짓곤 한다. 우리는 이런 현상을 보고 ‘데이터 기반 의사결정’이라고 한다. 하지만 각자의 머릿속에는 각자의 이야기가 있고, 같은 숫자를 보고 도 각자 다른 결론을 꿈꾸기도 한다.
기업도 크게 다르지 않다. 일을 하면서 대시보드나 보고서 등에서 다양한 사람이 많은 그래프를 쉽게 접한다. 그리고 이때 여러 그래프를 보면서도 사람들의 머릿속에는 각자가 생각하는 대로 이야기가 만들어진다. 최근에 광고를 런칭했으면 광고 클릭 수가 늘었더니 DAU(Daily Active User. 하루 동안 해당 서비스를 이용한 순수한 이용자 수)가 늘어난다는 것이 보이는 사람이 있을 것이고, 새 상품을 들여놨더니 매출이 증가하는 것부터 보이는 사람이 있을 것이다. 하지만 이 모두가 맞을까? 아마도 아닐 것이다. 그러면 데이터 분석가는 이에 항변하기 위해 ‘추이가 같다고 다 그것 때문에 늘어나는 것은 아닐 수 있다, 상관관계는 인과관계와 다르다’라고 이야기를 한다. 이 애매한 말은 대체 무엇일까?
‘상관관계는 인과관계를 나타내지 않는다’는 통계에 조금만 관심이 있는 사람이라면 이미 귀에 못이 박히도록 들어봤을 문구다. 특히 현실에 통계를 적용해보려는 사람이라면 통계 제1원칙으로 새겨두어도 부족함이 없다.
현실의 많은 일은 여러 요인이 복잡하게 얽혀 발생한다. 간혹 ‘나비효과’라고 해서 ‘나비 한 마리의 날갯짓이 지구 반대편에서 태풍을 일으킬 수 있다’라고 이야기하지만, 나비의 날갯짓만으로 태풍이 일어날까? 그렇지 않다. 나비의 날갯짓에 기류 변화와 날씨 변화, 해류 흐름 등이 조합되어 태풍이 일어난다. 나비의 날갯짓이 끼치는 영향은 (비록 중요하고 시작일지는 몰라도) 매우 미미하다. 또한 다행히 대부분 나비의 날갯짓은 태풍과 상관이 없어서, 우리는 수많은 나비가 날아다녀도 태풍으로부터 안전하다.
실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼, 원인과 결과 관계가 명확한 것을 ‘인과관계’라고 한다. 어떤 ‘나비의 날갯짓’과 ‘태풍’은 어쩌면 인과관계가 있었는지 모른다. 하지만 대부분은 나비가 날아다녀도 태풍을 의심하지 않고, ‘나비의 날갯짓’과 ‘태풍’이 실질적인 인과관계가 있다고 생각하지 않는다.
데이터를 보면서 흔히 ‘인과관계’와 ‘상관관계’를 혼동한다. 상관관계는 두 변수가 얼마나 상호 의존적인지를 의미한다. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식이다. 이를 숫자로 표현하는 것이 상관계수(보통 피어슨 상관계수를 가장 많이 사용하고 스피어만 상관계수 등을 사용하기도 한다)다. 여러 데이터를 분석할 때 그 추이가 비슷한지를 확인하는 데 상관계수를 보통 우선적으로 사용한다. 간혹 특정 변수 간의 상관계수가 의미 있게 나온다고, 해당 변수를 특정 문제의 원인으로 꼽는 식으로 데이터를 분석하는 경우가 있다. 혹은 그래프를 그려 보면 추이 형태가 비슷하다는 이유로 해당 변수를 문제의 원인으로 잡아내고, 이것으로 문제를 해결했다고 생각하는 경우도 있다. 하지만 사실은 그렇지 않다.
실제로는 어떤 관계도 없지만 나비의 날갯짓 빈도와 태풍의 발생 빈도를 데이터로 나타냈을 때 우연히 상관관계가 있는 것처럼 보일 수도 있다. 이렇게 우연히 데이터가 들어맞을 때 혹여 나비의 날갯짓과 태풍에 대한 상관관계를 파악하고자 상관계수를 구한다면 태풍과 나비의 상관계수와, 나비와 태풍의 상관계수는 같다. 만약 어느 정도 유사한 추이가 있다면 이 상관계수는 크게 나왔을 것이고, ‘나비’와 ‘태풍’이라는 두 변수는 상관성을 가진다고 해석될 것이다. 하지만 이것이 한 변수가 다른 변수의 변화의 원 인이 됨을 의미하지는 않는다. 원인과 결과는 비대칭 결과이기 때문이다. 나비의 날갯짓으로 태풍이 일어났다고 한다면, 태풍 때문에 나비가 날아 다녔다고 말할 수는 없지 않은가?
그뿐이랴. 두 변수의 형태는 우연의 결과거나, 외생 변수(외부에서 발생한 변수)가 두 변수에 동시에 영향을 미친 것일 수도 있다. 즉 두 변수가 상관관계만으로 원인과 결과임을 판단할 수 없고, 그래서 상관관계가 인과관계를 나타내는 것은 아닌 것이다.
상관관계가 인과관계를 나타내지 않는다는 사례는 많은 곳에서 찾아볼 수 있다. 대표적으로 1940년대 보건 전문가는 소아마비와 아이스크림 섭취 간에 상관관계가 있다는 것을 발견하고, 소아마비 예방을 위해 아이스크림을 적게 먹을 것을 권고했다. 하지만 한참 후에 단순히 소아마비가 여름에 많이 발병하고, 아이스크림도 여름에 주로 팔린다는 사실이 밝혀졌다. 소아마비와 아이스크림 섭취 간에는 어떤 인과관계도 없었고, 그저 ‘날씨’라는 외생 변수가 소아마비와 아이스크림 변수에 공통으로 영향을 주었을 뿐이다.
하지만 사람들은 어떤 관계를 찾고, 그러다 보니 상관관계가 많이 사용되고, 오용되기도 한다. 물론 인과관계를 분석하는 것은 쉬운 일은 아니다. 과거의 값이 현재의 값에 영향을 계속 미치는 ‘자기상관성’이라든가, 누락된 변수에 대한 ‘편향성’(변수의 값이 한쪽으로 쏠리는 경우. 이 경우에는 사용되지 않은 변수가 영향을 미쳐서 실제 변수와 상관없이 어느 한 쪽으로 값이 몰리는 특성)이라든가, 어떻게 할 수 없는 날씨 같은 ‘외생 변수’의 영향 등을 고려해야 한다. 특히 잘 통제된 실험 공간 내에서 만들어진 데이터가 아닌, 수많은 돌발사항과 외생 변수를 마음대로 조절할 수 없는 실제 데이터 분석에서는 고려할 사항도 많고, 불확실성도 크다. 하지만 상관관계가 어쩌다 있다고 해도 그것이 인과관계가 아니란 것만은 확실하다.
사람들은 무분별한 정보 사이에서 패턴을 찾고, 거기에 의미를 부여하는 데 능하다. 이는 사는 데 있어서 굉장히 유용하지만, 많은 경우 비정보성 데이터에도 큰 의미를 부여하여 오히려 혼란을 일으키기도 한다. 자신에게 어떤 편향을 가지고 있는 경우 그런 현상이 더 하고, 자신에게 유리한 데에 있어서는 패턴 탐색 및 의미부여 능력을 오용하기도 한다. 그리고 이런 오용에 대표적으로 활용되는 지식이 ‘과한 상관관계 부여’와 ‘상관관계와 인과관계의 혼용’이다. 이를 테면 회원 숫자가 증가하는 데는 여러 외부 요인이 있을 수 있음에도 ‘자신이 원하는 어떤 것 때문이다’라고 뚜렷한 근거도 없이 아무렇지 않게 말해버린다. 개인의 성과를 내세울 때도, 자신이 속한 집단의 정당성을 주장할 때도, 언론이 사람들에게 혼란을 일으키는 데도 이런 데이터의 오용이 종종 사용된다. 그리고 이런 오용을 ‘데이터 기반 의사 결정’이라며 마치 대단한 근거를 가진 양 이야기한다. 이를 인지 못하는 사람들은 일단 회원 증가도 사실이고 프로모션을 한 것도 사실이기 때문에 ‘프로모션을 해서 회원이 증가한 것이다’라는 주장을 믿어버리기 일쑤다.
데이터 분석에서 상관관계는 기본적이며 중요한 항목이다. 변수 간의 관계와 추세를 파악할 수 있고, 이후 여러 분석에서 고려할 수 있다. 하지만 이를 가지고 섣불리 어떤 결과를 내는 것은 위험하다. 상관관계는 인과관계가 아니며(중요하니 두 번 말한다), 특히 수많은 외생 변수가 여기저기 떠다니는 현실 데이터 분석에서는 더욱 그렇다. 두 변수간의 관계 분석을 하면서 상관관계와 인과관계를 사용할 때는 내생 변수(실험에서 고려하는 내부 변수)와 외생 변수를 이해하고, 변수의 추이에 영향을 미칠 수 있는 요인이 어떤 것들이 있는지를 꼼꼼히 따져보아야 한다. 상관관계가 있다고 섣부른 판단을 하다 보면 여름의 소아마비처럼 실제와 상관없는 데이터 결과를 흔들면서 이상한 정책을 진행하고, 아까운 시간과 돈과 인력만을 소비하고, 잘못된 생각으로 더 큰 실수를 불러올지도 모르는 일이다.
 

 권정민
세상은 데이터로 이뤄져 있다고 생각하며, 데이터를 잘 활용하고자 하는 목표를 가지고 다양한 데이터 분석 및 활용 방안을 만들고 연구하는 것을 업으로 하고 있다. 카이스트 및 포항공과대학교에서 산업공학과 전산학을 전공했으며, 다양한 산업군에서 데이터 분석을 수행하고 있다. 《빅데이터 분석 도구 R 프로그래밍》, 《The R Book(Second Edition) 한국어판》, 《딥러닝과 바둑》을 번역하고, 《딥러닝 레볼루션》과 《인터넷, 알고는 사용하니?》를 감수했다.

 
 
 

만화 주형
이공계열 사범대를 전공했지만, 만화 그리는 내 모습이 가장 좋아서 웹툰 작가의 길을 걷고 있다. 동글동글한 그림체로 발랄한 에너지를 전파하고자 한다. 네이버 베스트 도전만화에서 《괜찮아, 고3이야》를 연재하여 전국의 학생들에게 오랜 시간 동안 공감과 위로를 전했다. 대표작으로 《괜찮아, 고3이야》(네이버 베스트 도전만화), 《데이터 분석가의 숫자유감》(리디북스)이 있다.

관련글 더보기