UPDATED. 2024-04-20 10:10 (토)
데이터과학자의 사고법
데이터과학자의 사고법
  • 교수신문
  • 승인 2021.03.12 15:04
  • 댓글 0
이 기사를 공유합니다

김용대 지음 | 김영사 | 396쪽

통계로 거짓말하기는 쉬워도 통계 없이 진실을 말하기는 어렵다
불확실함만이 확실한 시대, 통계적 사고로 위험을 헷지(hedge)하라!

바야흐로 불확실성의 시대이다. 비 한 방울 내리지 않는 사하라사막에서 눈이 내리고, 한겨울에도 영상 10도 이하로 내려가지 않는 텍사스에 영하 20도의 한파가 몰아친다. 코로나19로 저점을 찍었던 주식시장은 최고점을 돌파하고, 2018년 열풍 후 대폭락을 겪은 비트코인은 연일 최고치를 경신하며 극적인 폭등세를 유지하고 있다. 이처럼 점점 불확실성이 급증하고 변동성이 최고조에 이른 오늘날, 불확실성은 이제 세계를 움직이는 법칙에 가깝다.
『데이터과학자의 사고법』은 점점 더 불확실해지고 있는 세상에서 통계와 확률로 구성된 데이터과학이라는 전문지식이 어떻게 우리 사회와 삶의 문제를 해결할 수 있는지를 보여준다. 세상과 인생은 우리가 생각한 것보다 훨씬 주사위놀이(확률)에 가깝다. 중요한 것은 불확실성을 없애려고 무모한 시도를 계속하는 것이 아니라 불확실성 자체를 받아들이고 대비하는 것이다. 데이터과학자가 알려주는 통계적 사고법은 인생에서 내리는 중요한 판단에서 찬반이 첨예하게 대립하는 사회적 문제까지 모든 사건에 내재된 불확실성을 이해하고 합리적 의사결정을 할 수 있도록 도와줄 것이다.

한 치 앞도 예측불가능한 상황을 돌파하는 가장 확실한 사고법
확률로 결정되는 세계를 탐험하기 위한 안내서

수학에서 통계 분야는 ‘수포자’를 양산하는 것으로 악명이 높다. 이처럼 확률과 통계가 어려운 까닭은 우리의 직관에 반하는 경우가 많기 때문이다. 안타깝게도 현실은 항상 우리 경험과 직관보다 통계의 손을 들어주기 때문에 우리의 많은 행동이 잘못된 선택이 되곤 한다. 저자 김용대 교수(서울대 통계학과)는 우리를 잘못된 판단으로 이끄는 여러 오류와 편향에 대해 사회 속 다양한 사례를 통해 ‘수포자’도 이해할 수 있게 설명해준다.
누구나 한 번쯤은 생각해봤을 법한 ‘내가 기다리는 버스만 늦게 오는 머피의 법칙’을 설명해주는 ‘길이 편이’부터 수많은 수학 천재들을 파산시킨 ‘극단값’, 2년차 징크스의 미스터리인 ‘평균으로의 회귀’, 행운의 로또번호를 맞추는 방법인 ‘다중비교의 오류’, 투자자들을 울리는 주식시장의 ‘임의보행’까지 책에 등장하는 통계의 핵심 개념들은 지적 자극과 새로운 통찰력을 선사하면서 우리를 확률의 세계로 인도해준다.
나아가 『데이터과학자의 사고법』은 수학교과서로만 접했던 통계와 확률이 얼마나 우리 일상 속에 얼마나 많이 사용되고 있으며 쓸모가 있는지 보여준다. 사실 우리는 일상에서 부동산이 오를지 내릴지 예측하면서 이미 ‘조건부확률’이라는 통계적 사고를 적용하고 있다. 단지 잘못된 데이터와 어림짐작에 근거해서 부정확한 분석을 할 뿐이다. 책에는 우리의 어림짐작과 실제 확률이 얼마나 다른지 보여주는 사례가 많이 등장하는데, 이를 통해 우리가 흔히 착각하는 확률에 대한 오해를 풀어준다. 97% 거짓말탐지기가 법원의 증거로 채택되지 못하는 이유, 한 반에 생일이 같은 두 사람이 있는 이유, 선거전문가들이 트럼프의 당선을 예측하지 못한 이유, 백신의 예방효과가 확률이 아닌 이유 같은 사회적으로 중요한 상황에서의 통계적 판단은 처음 접한다면 거짓말처럼 느껴진다. 그러나 설명을 따라가다 보면 우리의 직관과 경험이 틀렸으며 통계적 사고가 진실로 가는 가장 확실한 길임을 인정할 수밖에 없을 것이다.

데이터과학의 눈부신 활약과 그림자
그리고 이해와 협력의 기초로서 데이터과학

통계학은 현재 데이터과학으로 확장되어 ‘21세기의 석유’라고 불릴 정도로 주목받고 있다. 유튜브의 추천동영상, 인터넷쇼핑, 새벽배송 등 보이지 않지만 새롭게 일상이 된 서비스들이 모두 데이터과학을 기반으로 하기 때문이다. 동시에 데이터과학이 우리의 일상 속으로 깊숙이 스며들면서 이전에는 없었던 새로운 사회적 문제들도 발생하고 있다.
최근 벌어진 인공지능 챗봇 ‘이루다’ 사건은 이런 새로운 문제를 종합적으로 보여준다. 딥러닝을 통해 대화를 학습한 ‘이루다’는 자연스러운 반응으로 화제를 불러일으켰지만, 혐오 발언과 개인정보 유출로 결국 서비스는 중단되고 말았다. ‘이루다’ 사건은 인공지능의 윤리적 문제, 개인정보 유출과 데이터 익명화 문제를 모두 보여준다. 『데이터과학자의 사고법』은 각종 산업 현장에서 활약하고 있는 최첨단 데이터과학과 인공지능의 현재와 미래를 설명하는 동시에 이미 현실화하고 있는 데이터과학으로 인한 문제들에 대해서도 심도 있게 다룬다. 데이터 익명화의 난점을 비롯해 알고리즘 설계 시 편향으로 인한 인공지능 윤리 문제를 조명하고, 대안으로 평가받는 ‘설명해주는 인공지능’ 개념까지 설명해준다.
이처럼 김용대 교수는 데이터과학이 세계와 우리의 삶을 얼마나 바꿔나갈 수 있는지 이야기하는 동시에 데이터과학의 한계와 그 의미를 지적하는 것 역시 놓치지 않는다. 데이터는 왜곡과 조작에 매우 취약할 뿐 아니라 같은 데이터를 어떻게 분석하느냐에 따라 전혀 다른 해석이 나오기도 한다. 모든 통계에는 오류가 있을 수 있으며, 따라서 데이터를 통해 얻은 판단의 한계를 알아야 한다는 것이다. 설령 완벽한 데이터가 있다 해도 완벽한 선택을 보장할 수 없다. 불확실성이 세계를 움직이는 법칙이듯 불완전한 선택 역시 불가피한 것이다. 결국 자신의 판단에 내재된 불완전성을 이해할 때 비로소 타인의 판단에 대해 더 잘 이해할 수 있고 존중과 협력이 가능해진다. 의견 대립이 극단으로 치닫는 오늘날, 데이터과학자가 사회에 던지는 시사점이자 우리가 데이터과학을 더 많이 이해해야 하는 이유이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.