UPDATED. 2024-04-25 08:40 (목)
21세기는 복잡계 과학의 시대…빅데이터는 미래를 구원할 것인가?
21세기는 복잡계 과학의 시대…빅데이터는 미래를 구원할 것인가?
  • 김재호 과학전문기자
  • 승인 2017.09.19 13:29
  • 댓글 0
이 기사를 공유합니다

키워드로 읽는 과학本色 192. 2017 가을 카오스 강연 ‘미래 과학’

2017 가을 카오스 강연‘미래 과학’이 닻을 올렸다. 이번엔 질문과 토론을 중심에 두고 과학의 각 분야 석학 10명을 만난다. 9월 13일부터 11월 22일까지 매주 수요일 저녁 7시 30분, 블루스퀘어 3층 북파크 카오스홀에서 강연이 진행된다. 1강은 정하웅 카이스트 석좌교수(물리학과)가 맡았다. 그는 ‘구글 신은 아직도 모든 것을 알고 있다: 복잡계와 데이터 과학으로 본 미래’라는 주제로 청중들과 만났다.

강연의 핵심은 빅데이터의 좋은 가치를 발현하기 위해선 데이터의 연결이 중요하다는 것이다. 정보시대의 원재료는 ‘데이터’이며, 이 데이터는 각각이 중요한 게 아니라 연결의 연결이 새로운 가치를 창출한다. 따라서 정 교수의 말처럼 테이터와 네트워크를 함께 생각해야 한다. IT의 미래는 연결이 늘어나는 것이다.

한 연구에 따르면, 노벨상을 많이 탄 국가들을 분석해보니 초콜릿 판매가 많은 것으로 조사되었다. 하지만 초콜릿이 노벨상을 보장해주진 않는다. 정 교수는 “상관관계와 인과관계는 같지 않다”면서 “바로 빅데이터의 함정”이라고 강조했다.

구글 신은 아직도 모든 것을 알고 있다

정 교수는 21세기에 걸맞은 과학이 복잡계 과학이라고 강조했다. 뇌의 뉴런은 전기 신호를 내지만 건전지를 붙여 뇌를 만들 수는 없다. 생명현상은 복잡계의 끝판왕이라고 할 만하다. 정 교수는 첫 연구 때 고속도로연결망과 항공망을 비교해보았다. 강연에 따르면 고속도로연결망은 무작위적이고 균일한 연결망이며 항공망은 허브 공항이 있는 불균일한 연결망이다. 세상 거의 모든 네트워크는 항공망과 같다.

빅데이터는 3V로 정의된다. 바로 양(Volume)과 속도(Velocity), 무정형(Variety)이다. 빅데이터는 많아도 너무 많고, 빨리 생성되고 실시간으로 분석이 되며 다양한 포맷을 갖는다. 그리고 복잡성이 증가한다. 이러한 빅데이터는 정치 선거나 독감예측 등에 많이 활용된다. 실례로 한국이나 미국 등 각종선거에선 특정 후보의 이름을 검색한 결과 데이터(수치)가 선거 결과와 동일하게 나타났다.

독감 관련 검색어의 증가는 올해의 독감환자 수를 실시간으로 예측하게 했다. 하지만 2013년 독감예측이 실패했다. 그 이유는 그 해 독감백신이 부족하다는 뉴스로 인해 독감에 걸리지 않은 사람들도 검색에 뛰어들었기 때문이다. 따라서 정 교수는 “내용 검토 없이 숫자만 맹신하는 것은 금물”이라고 말했다. 연관 검색어를 고려하는 등 다각도의 관점이 중요하다.

강연에서 정 교수는 구글 앤 그램 프로젝트를 소개했다. 구글은 1500년도에서부터 2008년까지 전 세계에서 출간된 책 3천만 권 가량을 스캔해 저작권 문제를 피해서 빅데이터 프로그램을 만들었다. 구글의 이 사이트에선 알고 싶은 트렌드 키워드를 입력하면, 그 용어의 시대별 등장횟수를 알려준다. 예를 들어, 미국의 내전이 자주 등장한 1861년부터 1865년까지나, 시민운동이 자주 언급된 1955년부터 1968년을 통해 문화적 변화를 감지해내는, 즉 빅데이터의 숫자를 통해 문화를 돌아보는‘컬쳐로믹스’이다.
 
촛불집회 참가인원 계산법은?

구글 앤 그램 뷰어에 따르면, 달걀이 먼저인가, 닭이 먼저인가 문제는 달걀이 조금 우위에 있는 걸 알 수 있다. 지옥에 떨어져라(go to hell)와 천국에 가세요(go to heaven)는 1차 대전이 발생한 1910년대 중반을 이후로 역전된다. 인간에 대한 염증이 더 많아진 것이다. 이러한 경향은 2000년까지 쭉 이어진다. 아울러, 과학은 종교보다 더 많이, 데이터는 신이라는 단어보다 더 많이 등장하기 시작했다.

그렇다고 빅데이터가 마냥 좋은 건 아니다. 스마트폰앱의 2%는 당신의 정보 탐색 방법(브라우징)의 기록을 요구하며, 14%는 카메라 (데이터) 접근권, 43%는 GPS 위치, 62%는 유저네임과 패스워드를 원한다. 즉 앱을 깔기 위해선 우선 내 정보를 내줘야 하는 것이다. 한 마디로 빅데이터는 개인의 프라이버시 문제를 일으킨다. 어디까지 나의 정보를 허용해야 하는지 고민이 드는 것이다. 사생활이 침범 받는 건 다양성과도 직결된다. 무분별한 빅데이터의 사용은 사회적 문제로 귀결될 것이다.

2부 패널엔 장원철 서울대 교수(통계학과)와 차미영 카이스트 교수(전산학과)가 참여했다. 차 교수는 ‘3분 과학’코너를 통해 가짜 뉴스의 판정을 소개했다. 가짜 뉴스와 진짜 뉴스를 반반씩 섞었을 때 인간보다 인공지능이 더 낫게 80% 이상 판별 가능했다. 특히 가짜뉴스는 점조직처럼 퍼지는 게 비교적 작고 산발적인 커뮤니티 구조를 가지며, 언어적 속성 또한 “어디서 들었는데…” 등의 표현이 많다고 한다. 장원철 교수는 촛불집회 참가인원 계산법에 대해 참석 시간의 전체 구간을 고려하는 방법을 알려줬다.

청중 질문에선 빅데이터와 스몰데이터, 북핵 문제를 빅데이터를 바라보는 방법, 빅데이터를 배우기 위한 전공분야, 인문학과 전산학, 통계학 등 전공별 역할 구분 등 다양한 소통이 이뤄졌다.

카오스 강연 ‘미래 과학’의 2강은 정석 고려대 교수(기계공학부)가 ‘Phantom, Avatar, and Persona’를 주제로 나선다. 그 이후엔 뇌 커넥톰, 인공지능, 미래의 수학자, 인공근육, 지구의 낯선 미래, 지구탈출계획, 우주의 미래, 미래의 기원 등을 다룬다. 과학커뮤니케이션 차원에서 펼쳐지는 카오스 강연은 질문과 토론을 계속 이어나갈 예정이다.


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.