클릭 한 번으로 800만 권의 책을 검색할 수 있다면

화제_ 『빅 데이터 인문학: 진격의 서막』 에레즈 에이든·장바티스트 미셸 지음｜김재중 옮김｜사계절｜384쪽｜22,000원

2013년 영문판으로 세상에 나온 이 책의 부제가 일단 흥미롭다. ‘800만 권의 책에서 배울 수 있는 것들’이다. 흔히 인문학 하면 저자들 역시 ‘인문학’ 쪽일 가능성이 높은데, 이 책의 저자들은 과학자다.
에레즈 에이든은 2010년 하버드대와 MIT의 의학·공학 통합 프로그램인 HST(Health Science and Technology)에서 박사학위를 받았다. 수학, 분자생물학, 언어학, 고분자물리학 등 여러 영역을 넘나들어 ‘과학계의 르네상스인’으로 불리기도 하는 그는 베일러의과대 조교수로 있다. 공동저자인 장바티스트 미셸은 하버드대에서 응용수학으로 석사학위를, 시스템생물학으로 박사학위를 받았다. 석학 마틴 노왁 하버드대 교수가 이끄는 ‘진화생물학의 기초적인 질문’ 프로젝트의 참여 연구원이자 구글의 방문 연구원을 지내기도 했다.

쉽게 말해 이 책은 지금까지 인간이 축적해온 기록 유산과는 규모 면에서 비교가 불가능한 어마어마한 양의 디지털 기록, 즉 빅데이터라는 새로운 환경에서 인문학이 맞이하게 될 혁명적인 변화를 짚고 있다. 30대 초반의 과학자인 두 저자는 첨단 과학기술이 제공하는 도구를 사용한다면, 인문학이 인간에 관해 지금껏 알지 못했던 새로운 사실들을 밝혀낼 수 있으리라 전망했다. 빅데이터는 그동안 물리적, 기술적 한계 때문에 접근할 수 없었던 많은 영역을 열어젖히며 인문학을 확장해나갈 수 있다는 게 이들의 생각.

이런 생각이 그냥 구체화된 건 아니다. 두 저자는 모든 책을 디지털화하겠다고 선언한 ‘구글 북스 라이브러리 프로젝트’의 빅데이터로 새로운 실험을 벌였다(구글은 2004년부터 지금까지 3천만 권 이상의 책을 디지털화했다). 이런 사정 때문에 외부에 쉽게 공개하지 않는 구글 북스의 데이터를 최초로 다룬 과학자들이기도 하다. 물론 이론의 여지가 많지만, 이들의 연구는 구글이 구축한 다지털 도서관이 단지 한 기업의 이익만을 위한 것이 아니라 인류의 지적 세계가 진일보하는 데 기여할 수도 있다는 것을 보여준 사례로 꼽을 수 있다.

하나 더 재미있는 사실은, 2010년 12월 16일, 두 저자와 스티븐 핑커, 마틴 노왁 등의 하버드대의 연구진, 구글, 아메리칸 헤리티지 사전, 브리태니커 백과사전의 전문가들이 모여 작성한 「수백만 권의 디지털화된 책들을 이용한 문화의 정량적 분석」이란 논문이 <사이언스>의 표지를 장식했다는 점이다. 이와 동시에 두 저자가 개발한 구글 엔그램 뷰어 웹사이트가 공개됐다. 이 웹사이트는 24시간 동안 300만 명 이상이 방문하며 전 세계적인 화제가 됐다. 검색창에 단어를 입력하고 클릭 한 번이면, 순식간에 800만 권의 책을 검색해 그려내는 매끄러운 곡선의 그래프, 이는 책 읽기와 인문학 연구, 나아가 세상을 읽는 방식의 변화를 암시하는 매우 의미심장한 그림이었다.

‘구글 엔그램 뷰어’는 구글이 디지털화한 책들 가운데 800만 권을 추려, 그 속에의 8천억 개의 단어가 1520~2012년까지 사용된 빈도의 추이를 그래프로 보여주는 프로그램이다. 이 800만 권의 책은 전 세계 모든 책의 6%에 해당하는 것으로, 영어, 프랑스어, 독일어, 스페인어, 중국어, 러시아어, 이탈리아어, 히브리어 등 8개 언어를 포함하고 있다. 저자들은 구글 엔그램 뷰어를 이용해 디지털화된 대량의 텍스트를 정략적으로 분석하는 연구방법을 ‘컬쳐로믹스(Culturomics)’라고 명명했다. 이 용어는 유전체학(genomics)에서 따온 것으로 생물학에서 DNA 염기서열의 대규모 집합이 어떤 패턴을 드러내듯, 방대한 양의 어휘 데이터도 인간의 문화를 분석하는 데 도움을 줄 수 있다는 생각이 담겨 있다.

이렇게 본다면, 특정 어휘의 통시적 빈도를 통해 역사와 문화를 들여다보겠다는 아이디어는 의미의 해석을 추구해온 인문학에 데이터 과학이라는 방법론을 제안한 것으로 읽힌다. 클릭 한 번으로 수백만 권의 책을 읽는 기술은 한 사람이 기껏해야 수십, 수백 권의 책을 읽으며 연구하던 방식으로는 발견할 수 없었던 사실을 새롭게 찾아낼 수 있게 도와줄 것이다.

더 흥미로운 대목은 부록에 있다. 이 책의 부록 ‘빅데이터로 보는 문화사: 1800~2000’에 실려 있는 21개 분야, 48개의 그래프는 문장 하나 없이, 매우 압축적이지만 풍부한 함의를 지닌, 완벽하게 새로운 방식으로 ‘지난 200년 간의 문화사’를 보여주기 때문이다. 예컨대 ‘신(God)’이라는 어휘를 보자. 19세기 초 1천단어 당 1회 정도 언급되던 ‘신’은 19세기 말에 이르러 언급되는 횟수가 절반 이하로 줄어든다. 그러나 1973년을 기점으로, 등장한 지 얼마 되지도 않은 ‘데이터(data)’에게 우위를 내주고 만다.

“역사기록을 디지털화하는 문제는 인문학에서도 거대과학 스타일의 작업을 할 수 있는 전례 없는 기회를 제시한다. 과학자, 인문학자, 기술자가 함께 팀을 이뤄 일하면 놀라운 힘을 가진 공유자료들을 만들어낼 수 있다.” 이 전망을 한국 학계의 현실에 그대로 대입할 수는 없지만, 그래도 퍽 시사적인 것만은 분명하다.

최익현 기자 다른기사 보기