500년 역사·800만권 책 꺼내본다

구글 ‘N-gram Viewer’가 바꿔놓을 강의실 풍경

이 글은 한국현장과학교육학회가 발행하는 <현장과학교육>(2016.10)에 게재된 「800만권의 책들을 과학교실로: Google Ngram Viewer로 배우는 빅데이터와 생물학의 역사」(이준기·신세인·하민수) 중 일부를 발췌한 것입니다.

최근 스마트 모바일 시대가 도래하고 컴퓨터의 정보처리 속도가 엄청나게 빨라지기 시작하면서 하루에만도 새롭게 생성되는 사진, 텍스트, 동영상 데이터 등의 양이 기하급수적으로 늘어나는 상황이다. 이러한 정보들 중의 최근의 ICT 환경이 만들어지기 전부터 존재했던 가장 오래 된 인륜의 기록 방식이 바로 ‘책’이다. 구글은 ‘구글 Books’ 프로젝트를 통해 인류의 지적 문화유산에 해당하는 세상의 모든 책들을 디지털화 하겠다는 엄청난 계획을 발표했고, 2013년 기준으로 3천만 권이 넘는 책을 모두 데이터베이스화 하는 데 성공한다. 이것은 비록 서구권 서적에 많이 치우쳐 있기는 하지만 그때까지 출간된 책의 1/4에 해당하는 막대한 정보라 할 수 있다.

이렇게 탄생된 ‘구글 N-gram Viewer’는 디지털화 된 3천만권의 책들 중 추려낸 800만권의 책들(1800년부터 2000년까지 기간 동안 출간된 것들)로부터 확보된 자료들을 기반으로 특정 단어의 출현 빈도 추이를 그래프로 보여주는 웹기반 프로그램이다. 현재는 1500년도부터 2008년까지의 약 500년 동안의 정보들에 대한 검색이 가능하다.
수많은 책 속의 단어들을 전산화하는 기법으로 구글이 사용한 N-gram은 텍스트, 바이너리 등 전체 문자열을 N값만큼 서브스트링(Sub-string)으로 나누어 통계학적으로 사용한 방법을 의미한다. 예를 들어서 ‘I like you’ 라는 문장을 분석하는 데 있어서 N값을 1로 하고 1-gram 기준을 적용해 보면, ‘I’ ‘like’ ‘you’라는 3가지 하위 문자열들이 각각 빈도수 1로 생성되게 된다. N값을 2로 하고 2-gram 기준을 적용해 보면, ‘I like’ ‘like you’ 2가지 하위 문자열들이 각각 빈도수 1로 생성되게 된다.

N-gram은 귀납적인 학습 방법을 통해 구체적인 사례를 기반으로 공통점을 추출하는 형태다. 이렇게 N-gram은 조각난 다양한 문자열의 출현 빈도들을 학습해 나타내게 된다. 구글 N-gram Viewer는 개발 초기에는 학문적인 용도로 활용되기 보다는, 오랜 기간 동안의 경향성 파악을 위한 재미있는 지적유희의 수단 정도로 여겨졌었다. 그러다가 차츰 최근 ICT 기술과 인문학이 융합한 ‘빅데이더 인문학’이라는 장르의 등장과 함께 학문연구의 도구이자 좋은 수업대상으로 다시금 관심이 집중되고 있다.
구글 N-gram Viewer는 1500년대부터 2008년까지의 800만권의 책들로부터 얻을 수 있는 엄청난 자료에 대해 자유로운 탐색을 통해 누구나 쉽게 빅데이터 추론이 가능하다. 비록 생명과학분야의 대표적인 빅데이터를 구축하고 있는 데이터베이스인 GenBank와 같은 바이오 빅데이터는 아니지만 빅데이터의 중요성과 원리에 대한 입문과 동기유발을 위한 수업의 소재로서 손색이 없다.

학생들은 구글 N-gram Viewer를 사용하기 위해 어려운 생화학 지식을 예습할 필요가 없고, 교사들은 프로그램을 다운받거나 data의 전처리를 번거롭게 해둘 필요가 없다. 또한 데스크톱 PC, 테블릿 PC, 스마트폰 등 어느 모바일 장치 환경에서도 수업이 가능한 장점이 있다. 한 개인의 제한된 지식에 기반을 둔 추론과 빅데이터의 위력을 비교해 보는 활동을 통해 빅데이터의 중요성을 느끼고 과학, 특히 생물학에서의 빅데이터의 중요성을 알 수 있을 것이다. 학생들이 일상단어나 손쉽게 접근할 수 있는 쉬운 웹페이지를 통해 빅데이터 추론에 대해서 흥미를 유발할 수도 있다.
특히 생물학에는 특정 개념이나 용어가 다른 과학에 비해 많이 등장한다. 그렇다보니 특정 용어나 이론, 개념의 도입과정이나 경쟁 및 전환과정에 대해서 그 배경과 과정에 입각해 서술적으로 설명식 수업을 진행하게 돼 수업이 길고 지루해 지는 경향이 있다. 이 과정을 구글 N-gram Viewer를 활용하면 500여년의 역사 속에서 800만권의 책을 한꺼번에 읽으며 수업을 진행하는 효과를 낼 수 있다.

구글 N-gram Viewer를 과학(생명과학) 수업에 도입해 보면서 얻을 수 있는 효과는 다양하다. 예컨대 고도의 전산언어학적 배경지식이 필요한 말뭉치 검색 및 분석 프로그램들과는 달리 자신이 검색하고자 하는 영어단어의 철자만 알고 있으면 어린이들도 사용할 수 있을만큼 직관적이고 간단하다. 또한 구글서버를 통해 웹기반으로 분석처리가 이루어지므로 많은 인원이 수업 중 동시접속해 사용해도 활용에 무리가 가지 않아 수업에 도입하더라도 교사의 준비 과정 등이 오래 요구되거나 특별한 인프라를 필요로 하지 않는다.
800만권의 도서를 망라하는 데이터를 기반으로 누구나 쉽게 얻을 수 있는 간단한 추세선 그래프를 통해 경향성 지식의 생성이 쉽다. 학생들이 특정 자료들의 패턴을 찾아 규칙성을 알아내야 하는 발견학습이나 기타 귀납적 탐구과정을 따르는 수업을 진행 할 경우에 수업의 편리성을 도모할 수 있다.

이준기 전북대·과학교육학부

이준기 전북대·과학교육학부 다른기사 보기