빅데이터 혁명, 천문학에서 유전학까지...통계는 진짜 유의미할까

[김재호의 SF ⑫] 빅데이터의 한계

대규모 식단 추적 데이터 분석·동물이동의 생태학 빅데이터 성과
데이터 과잉이 초래한 우연의 확률값은 5%로 과학 신뢰성 낮아

올해 초, 『네이처 』는 ‘대규모 식단 추적 데이터는 음식 환경과 식단 사이의 상이한 연관성을 보여준다’는 논문을 소개했다. 이번 연구는 1백1십6만4천926명을 대상으로 마이피트니스팔(MuFitnessPal) 앱을 통해 평균 197일 동안 23억 개의 식품 항목을 조사했다. 대상과 항목 측면에서 이 연구는 미국 내 최대 규모의 빅데이터 연구였다.

빅데이터가 데이터의 과잉으로 인해 비판을 받고 있다. 무작위적 데이터 추출과 연관성 찾기는 과연 얼마나 통계적으로 유의미한 것일까. 사진=픽사베이

그 결과, 패스트푸드에 대한 접근성이 낮고 식료품점에서 신선한 과일과 채소에 대한 접근성이 높을수록 과체중의 영향을 덜 받는 것으로 나타났다. 높은 소득과 교육도 관련이 있었다. 이런 연관성은 우편번호를 통해 집계한 히스패닉, 흑인 인구 밀집 지역에서 더욱 우세하게 나타났다. 식이 요인들은 전 세계적으로 심혈관 질환, 제2형 당뇨병, 암과 같은 사망과 만성 질환의 위험에 크게 기여한다. 이번 연구결과는 주거와 음식 환경, 사회 경제적 요소들이 식단에 큰 영향을 끼치는 걸 암시한다. 이전 연구결과들은 작은 표본으로 인해, 각각이 혼합된 결과를 보여줬다.

디지털 대전환 시대에 빅데이터는 더욱 각광을 받고 있다. 지난달 29, <포브스>는 ‘데이터 탐색이 더 나은 비즈니스 성과 창출의 핵심이 이유’라는 칼럼을 게재했다. 이에 따르면, 2025년까지 직원의 거의 70%가 업무에서 데이터를 매우 많이 사용할 것으로 예측된다. 빅데이터 분석에는 데이터 캡처, 데이터 저장·분석, 검색, 공유, 전송, 시각화, 쿼리(정보 요청), 업데이트, 개인 정보 보호, 데이터 소스 등이 있다. 빅데이터의 처리·분석을 위해선 수백 혹은 수천 대의 서버에서 실행되는 대규모 병렬 소프트웨어가 필요하다. 전 세계 1인당 정보 저장 용량은 1980년대 이후 약 40개월마다 약 2배씩 증가했다. 2025년까지 전 세계 데이터 양은 163제타바이트(163X1조1000억 기가바이트)의 데이터가 있을 것으로 예상된다.

빅데이터가 드러내는 동물이동의 생태학

최근 <사이언스>는 ‘빅데이터가 동물이동의 생태학에 대한 이해를 높인다’라는 논문을 공개했다. 빅데이터는 천문학에서 유전학에 이르기까지 연구 분야에 혁명을 가져왔다. 이번 연구결과는 동물들이 환경을 어떻게 이용하고 상호작용하는지 빅데이터 분석을 통해 알려준다. 빅데이터를 통한 연구방법론의 변화는 생물종 전반에 걸쳐 연구와 보존에 대한 새로운 길을 열어줄 것이다. 대규모 고해상도 데이터 세트는 야생 동물 추적 시스템을 효율적으로 자동화 해줄 것이다.

예를 들어, 역GPS 기술은 20g의 새 등 여러 작은 동물들을 동시에 추적할 수 있는 자동화 한 고해상도 시스템이다. 역GPS 기술은 1초 간격, 수 미터를 수개월에 걸쳐 수중의 음향 신호와 육상의 무선 신호를 사용한다. 다만, 시스템 설치가 필요하며 대개 지역 규모 폭 100킬로미터로 제한된다. 반대로 GPS 기반 시스템은 쉽게 오랫동안 이용할 수 있고, 전지구적인 규모를 커버할 수있다. 역GPS 기술과 마찬가지로 공간적으로 정확하고 지역 규모에서 주기적으로 고해상도 추적을 할 수 있다. 하지만, 더 많은 비용과 전력을 필요로 하고, 더 큰 동물들만 추적 가능하고, 물속에서는 적용될 수 없다. 레이더와 컴퓨터 비전(vision)일 이용한 추적 기술 역시 여러 개체의 이동에 대한 고해상도 스냅샷을 만들어낼 수 있다. 또한 이 두 기술은 추적장치(tag)가 없는 동물을 비침습적으로 추적할 수 있게 해준다. 하지만 비용 효율이 낮고, 일반적으로 작은 규모로 제한돼 개별적인 식별을 어렵게 한다.

빅 무브먼트 데이터(Big movement data)는 개체별 변화를 행동,특성, 인지 및 생리와 연결하는 데 도움이 된다. 고해상도 데이터는 더 대담한 새가 경관을 가로질러 더 많은 장소를 방문한다는 걸 알려준다. 대담한 새는 덜 대담한 새와 새 발자국이 자주 서로 교차하여 질병 전파 가능성이 높다. 또한 물고기는 어업을 피하고 작은 범위(patch) 내에서 자주 국지적으로 탐색한다는 것을 알 수 있다. 그러나 이러한 결론 중 어느 것도 저해상도 데이터에서는 도출할 수 없었다.

고용량 추적데이터는 멸종 위기에 처한 유럽 뱀장어(Anguilla anguilla)가 하류로 이동하는 동안 음향 삼각 측량법으로 관측됐다. 유럽 뱀장어는 댐 근처에서 유속의 급격한 변동에 직면했을 때 빠른 행동 변화를 나타냈다. 이는 실험으로 유도한 것이다. 유럽 뱀장어의 행동 변화는 긴 간격을 두고 샘플링할 때는 감지할 수 없었던 움직임이다.

빅데이터를 활용한 국제적 협력 역시 활발하다. 예를 들어, 캐나다 노바스코샤주에 있는 달하우지대에 있는 ‘해양 추적 네트워크’가 있다. 이곳은 물고기 이동 패턴을 연구하기 위해 이식된 음향 송신기를 사용한다. 또한 ‘유럽 추적 네트워크’는 유럽 전역의 수생 생물을 추적해 더욱 잘 이해하고 보호·관리하고자 한다. 여기선 원격 측정(telemetry)을 이용해 수생 종의 생태 및 이동 행태를 조사한다. 아울러, ‘북극 동물 운동 기록 보관소’는 1987년부터 현재까지 247개 연구, 1만3천800마리 동물에 대한 4천700만 개 이상의 위치를 기록하고 있다. 이곳은 북극과 북극 근처의 동물 이동과 동물 매개 센서 데이터를 축적하고 있다. 이러한 데이터는 기후변화와 생물다양성 보전을 위해 중요하다.

나쁜 빅데이터가 믿음을 흔든다

하지만 빅데이터에 대해 통계적 오류가 지적되기도 한다. 지난달 26일, <워싱턴포스트>는 ‘당신은 과학을 믿나요? 나쁜 빅데이터 연구는 당신의 믿음을 흔들 수 있다’는 소식을 전했다. 과학혁명의 초석은 무작위로 통제된 실험에서 데이터를 사용해 주장을 검증해야 한다는 이상적인 주장에 놓여 있다. 그 이상은 통계적으로 얼마나 유의미한 결과를 양산할까?

17세기 스웨덴에서 커피는 엄청난 인기를 끌었으나 불법이었다. 당시 스웨덴의 왕이었던 구스타프 3세는 커피가 사람을 천천히 죽이는 독이라고 간주했다. 그는 이를 증명하기 위해 영리한 실험을 고안했다. 참수를 기다리고 있는 살인자 쌍둥이 형제를 감형한 것이다. 대신 형제 중 한 명은 매일 커피를 마시게 했다. 다른 형제는 매일 차 세 병을 마시도록 했다. 그 결과, 커피를 마시던 형제 중 한 명이 더 오래 살았다. 하지만 스웨덴은 1820년대 계속 마시던 커피를 끝내 법적으로 허용하지 않았다. 구스타프 3세의 실험은 성별, 연령, 유전자 등의 영향력을 제거한 것으로 유명하다. 쌍둥이 형제 두 명만으로 통계적으로 설득력 있는 결과를 끌어내기엔 무리가 있었다.

오늘날 문제는 데이터의 부족이 아니라 과잉이다. 데이터의 과잉으로 과학의 신뢰성이 훼손된다. 행운은 무작위 시험에 내재돼 있다. 통계적으로 유의미한 결과라도 우연에 기댄 경우도 있다. 의학에서 일부 환자는 더욱 건강할 수 있다. 농업 연구에서 일부 토양은 더욱 비옥해질 수 있다. 교육 연구에서 학생들은 더 많이 학습에 집중할 수 있다. 연구자들은 결과가 우연히 발생할 수 있는 확률값을 계산한다. 낮은 확률값은 우연히 발생한 행운을 역추적할 수 없음을 의미한다.

데이터는 사실 모두 난수(random number)이다. 난수란 다음에 나오는 수를 예측할 수 없는 수열이다. 연구자는 수백 개 변 수 사이의 상관 관계를 계산하는데, 평균적으로 20개의 연관성 중 한 개 정도(5%)만 통계적으로 유의미하다. 나머지 연관성은 우연의 일치에 불과하다. 통계적 유의미성을 위한 무작위 검색은 바로 데이터 마이닝이다. 난수와 마찬가지로 무작위로 선택된 변수와 독립변수(irrelevant variables) 사이의 관계에서 통계적으로 유의미할 확률은 5%이다. 따라서 연구자들은 통계적 유의미성을 위해 더 많은 테스트를 실행하고 더 많은 의미 없는 결과들을 보고해야만 한다. 결국, 통계적으로 유의미하다는 이유만으로 우연에 의해 발생한 연관성이 좋은 저널에 게재된다.

존 이오아니디스 스탠포드대 교수(예방 의학)가 이끄는 연구팀은 34개의 매우 저명한 의학 연구를 연구재현해보려고 했다. 하지만 20개만 가능했다. 또한 연구팀은 주요 심리학 저널에 발표된 97건의 연구를 재현하려고 했지만, 35건의 연구만 확인됐다. 실험 경제학 분야에서는 주요 경제 저널에 보고된 18개의 실증 연구 중 11개 연구만 확인됐다. 더 많은 데이터가 더 많은 지식을 불러오는 것일까. 하지만 측정되고 기록되는 것들의 수가 폭발적으로 늘어나면 유사(pseudo) 통계적 관계들을 부풀려 우리를 속이는 경우가 많다.

김재호 기자 kimyital@kyosu.net

김재호 다른기사 보기