사회과학의 미래, 기대와 우려

박종희 서울대 교수가 말하는 「21세기 사회과학 자료분석방법의 미래」

지난달 31일 서울대 사회과학대학 설립 40주년 기념 심포지엄 ‘차세대 사회과학을 위한 연구방법론의 교육과 역량강화’에서 박종희 서울대 교수가 발표한 「21세기 사회과학 자료분석방법의 미래」의 주요 부분을 발췌했다.
사사회과학 연구방법의 분업구조를 고려할 때 21세기 사회과학 연구방법의 미래는 어떻게 진단할 수 있는가. 생산자와 소비자 측면에서 살펴보자.

생산자 (개발자, methodologists)
첫째, 통계적 연구방법의 공학화가 빠르게 진행될 것이다. 자료의 양이 제한되고 자료의 형태가 비교적 예측가능했던 19~20세기에는 통계적 연구방법은 수학적 모형에 기반한 간단한 계산에 기반해 있었다. 수학적, 통계적 지식과 응용분야에 대한 전문적 지식을 갖는 것이 이전까지의 사회과학 연구방법에서 강조됐다. 따라서 방법론의 생산자들에게는 수학적이고 통계학적 지식의 고도화가 곧 연구방법의 발전으로 인식됐고 소비자들에게는 복잡한 모형을 어떻게 해당 분야의 자료와 적절히 결합할 것인가가 분석의 관건으로 여겨졌다.
그러나 자료의 양과 형태의 복잡화가 급속하게 증가하는 21세기에는 통계적 연구 방법에서는 자료처리능력(data preprocessing capacity)과 계산(computation)의 중요성이 보다 증가할 것으로 예상된다. 따라서 통계적 연구방법의 중요한 개선과 발전이 공학적 아이디어(전산학, 물리학, 컴퓨터공학 등)와 분석방법에 의해 이뤄질 것임을 의미한다. 통계적 연구방법의 공학화는 사회과학 연구방법에도 중대한 변화를 가져올 것이다. 계산적 효율성과 자료처리방법의 쇄신은 사회과학이 그동안 엄두를 낼 수 없었던 대량자료나 비정형자료에 대한 접근가능성을 높일 것이다. 동시에 공학화의 성과를 제대로 받아 안기 위한 노력으로 사회과학 방법론 교육에서 프로그래밍 교육의 중요성이 증가할 것이다. 둘째, 사회과학 연구방법론의 융합이 증가할 것이다. 여기서 융합이란 실험적 연구방법, 서베이 조사방법, 전통적 회귀분석, 베이지안 분석, 기계학습, 생물통계, 통계물리학, 질병학, 예측분석 등과 같이 그동안 사회과학 연구방법 안에서 독자적인 발전의 길을 걸어온 연구방법들을 연구자들이 서로 효과적으로 결합하는 연구를 말한다. 그동안 이러한 융합이 지체된 이유는 지금까지 사회과학 방법론의 생산자들은 본인이 속한 작은 연구집단 내에서 교류하고 그들에게 인정받는 연구를 수행해서 해당저널에 출판하는 방식으로 경력을 쌓아온 데 있다. 이런 이유로 <사이언스>, <네이처>와 같이 사회과학 연구를 대표하는 대표저널이 존재하지 않는다.

셋째, 가상 실험실(virtual labs)이나 여론조사에서 비확률 표본(nonprobability survey sample)과 같이 웹테크놀로지를 이용한 새로운 형태의 사회과학 연구방법이 대두할 것이다. 이미 아마존은 미케니컬 터크(Mechanical Turk)는 성공적으로 운영되고 있으며 서베이 조사에서도 비확률 표본패널에 기반한 조사가 전통적인 확률론적 샘플링 기법에 기반한 조사를 위협하고 있다. 구글은 웹트래픽을 이용한 사회현상 예측의 가능성을 시사한 바 있으며 이에 대한 반론도 제기된 상태이다.
넷째, 정보기술의 지속적 발전으로 시뮬레이션에 기반한 연구방법의 중요성이 더욱 증가할 것이다. 컴퓨터 시뮬레이션에 기반한 연구방법은 그동안 사회과학 연구방법의 발전에 중요한 기여를 해왔다. 앞으로 이런 경향은 더욱 두드러질 것이며 연구방법의 발전에 정보기술의 기여는 더욱 직접적인 형태를 띨 것이다. 예를 들어 현재 사회과학의 난제로 여겨지는 문제들인 복잡계에서의 인과적 추론(causal inference in complex systems)의 문제는 이론개발과 함께 이를 뒷받침할 방법론적 쇄신을 필요로 한다.

소비자 (사용자, applied statisticians)
첫째, 20세기 통계적 연구방법을 지배해온 영가설검정(null hypothesis significance testing procedure, NHSTP)의 영향력이 약화되면서 그 대안적 패러다임에 대한 논의가 본격화될 것이다. 새로운 대안적 틀이 자리잡기 전까지 연구자들은 가설의 타당성을 경험적 자료를 통해 보여줄 수 있는 창의적이고 효과적인 방법에 대해 고민해야 한다. 모형자체의 설명력을 비교하는 모형비교(model comparison)가 중요해질 것이고 통계모형의 추정효과의 실제적 크기(effect size)를 보고하는 것이 저널출판에서 필수적인 사항이 될 것으로 보인다. 또한 베이지안 통계에 기반한 확률론적 해석의 중요성이 증가할 것이고 부트스트랩과 같은 리샘플링 방법도 그 중요성이 증가할 것이다. 라소(lasso)와 같은 변수축소의 방법이 영가설검정의 대안으로 부상할 수 있다. 둘째, 자료의 형태가 더 복잡해지고 다양해질 것이며 그 양이 대폭 늘어날 것이다. 자료의 홍수시대가 올 것이며 이는 곧 자료의 양이 증가한다는 의미만이 아니라 자료의 형태가 매우 다양해짐을 의미한다. 지금은 상상할 수 없는 자료들이 이제 자료분석의 대상이 될 가능성이 높다. 이미 텍스트자료나 다양한 비정형화된 양적 자료 등이 사회과학 자료분석의 대상으로 편입됐다. 앞으로는 구글이미지와 같은 사진자료나 음성자료 등이 양적 분석의 대상으로 편입될 것이며 이러한 자료를 어떻게 전처리해서 표준화할 것인가가 중요한 자료분석작업이 될 것이다. 셋째, 포인트앤클릭(point&click)에 기반한 통계소프트웨어만으로는 이러한 자료의 변화와 분석방법의 변화를 따라가기 어려울 것이다. 연구자가 직접 자료를 다양하게 처리하고 분석방법의 변화를 가할 수 있는 통계소프트웨어의 사용이 더욱 필수적으로 요구될 것이다. 넷째, 엑셀(Excel) 의존도가 약화되는 방향이 자료분석방법의 진화경로가 될 것이다. 조금 과장을 섞어서 말하면 엑셀에 묶여있는 연구자들은 도태될 것이고 엑셀에서 자유로운 연구자는 살아남을 것이다. 마찬가지로 파워포인트도 비슷한 운명을 겪을 것이다.

다섯째, 인과적 추론(causal inference)의 중요성이 더욱 강조될 것이다. 자료의 분석이 전부가 아니라 자료생성의 과정에도 연구자가 적극 개입해 자료생성과정에서의 오류나 편향을 최소화하고 노이즈를 사전 제거하는 기획(design)의 중요성이 더욱 강조될 것으로 보인다. 여섯째, 연구자가 다루는 패널자료, 다층자료, 시계열자료의 폭과 범위가 더 넓어질 것이다. 이른바 고급통계기법으로 간주되던 분석방법이 점차 표준화될 것이며 군집구조, 위계구조, 시계열 구조를 제대로 분석과정에서 반영하지 못하는 연구, 모든 것을 한데 모아서 분석하는 통합분석(pooled analysis)하는 관행은 더욱 설자리가 없어질 것이다. 일곱째, 연구윤리가 더욱 중요한 이슈가 될 것이다. 연구의 재현가능성은 이제 저널출판과정에서 통계적 연구방법을 포함한 사회과학 연구방법 전체의 규범으로 자리 잡을 것이다. 예를 들어 실험적 연구방법의 경우에도 재현가능성을 최대한으로 구현할 수 있는 자료를 모두 공개해 자료생성과정의 투명성을 높이도록 요구받고 있다. 통계적 연구는 논문의 모든 표와 그래프를 재생할 수 있는 코드와 자료의 공개가 필수적인 요구사항으로 간주될 것이다. 마지막으로 자료정리 및 관리의 중요성이 매우 강조될 것이다. 자료의 양과 복잡성이 증가한다는 것은 더 이상 엑셀 시트 안에 모든 것을 담기 어려워짐을 의미한다. 자료고유의 특성을 반영한 효율적인 저장, 관리 방법을 배우고 익히는 게 매우 중요해질 것이다. 정보기술혁명과 컴퓨터 프로그램의 진화는 21세기 사회과학 연구방법의 변화에 중요한 영향을 줄 것이 분명하다. 자료과학(data science)이라는 이름 아래 이제 통계학과 사회과학 방법론, 그리고 자연과학 및 공학이 서로에게서 배우고 교류하는 장이 열리게 될 것이다.

최근의 빅데이터 열풍은 이러한 새로운 시대의 시작을 알리는 서막이라고 볼 수 있다. 그러나 자료의 홍수와 자료처리기술의 눈부신 발전이 이론의 죽음을 선포할 것이라는 주장은 최소한 사회과학에서만큼은 섣부른 것으로 보인다. 자료와 자료처리기술의 발전은 오히려 이론적 빈곤에 대한 논의를 촉발할 가능성이 있다. 예를 들어 정치학 내에서 진행된 EITM(Empirical Implications of Theoretical Model)운동은 이론과 방법론의 발전이 상호 긴밀한 관계 속에서 진행돼야 한다는 자각의 결과다. 자료처리기술과 연구분야에 대한 실제적 지식의 결합을 ‘위험지대(danger zone)’라고 불렀지만 사실 사회과학 연구에서 더 위험한 것은 연구분야에 대한 실제적 지식이 결여된 채 자료처리기술과 수학적, 통계학적 지식에 의해 주도되는 연구경향이다. 이러한 우려가 기우가 아닌 이유는 연구자들의 문제의식을 사실상 결정하는 박사 과정 교육과정을 생각해 보면 쉽게 이해할 수 있다. 수학적, 통계학적 지식(보통 3과목 이상의 수강을 요구)에 더해 자료처리에 필요한 공학적 지식(3과목 이상의 수강을 요구)까지 가르치다 보면 자연스럽게 사회과학의 실제적 연구대상인 인간과 제도, 국가, 그리고 역사에 대한 교육시간이 점차 줄어들 가능성이 크다. 결국 균형잡힌 연구자를 길러내기보다는 자료처리와 통계적 지식에 특화된 연구자들이 연구대상 분야의 전문가들과 협업하는 방향으로 연구풍토가 변화할 것이다. 유기적 협업이 르네상스맨을 대체할 수 있을 것인지, 학계에서 정말 중요한 연구주제가 협업의 대상이 되기보다는 협업이 용이한 연구주제나 연구방법이 연구주제의 중요성보다 더 중요한 고려가 될지, 현재로서는 알 수 없다. 다만 개인 독자연구가 협업과 경쟁하기는 갈수록 더 어려워질 것이라는 점은 분명해 보인다. 이러한 변화가 사회과학에 미칠 장기적이고 총체적인 영향에 대한 질문은 지식사회학의 중요한 연구대상이 될 것이다.

북학 기자 다른기사 보기