UPDATED. 2020-11-26 11:16 (목)
'게놈 빅데이터'가 쏘아올린 맞춤형 의학
'게놈 빅데이터'가 쏘아올린 맞춤형 의학
  • 박강수
  • 승인 2020.10.26 09:10
  • 댓글 0
이 기사를 공유합니다

카오스재단 ‘AI 크로스’ 강연 ③ 게놈데이터를 이용한 정밀의료

카오스재단(이사장 이기형)이 인공지능(AI)을 주제로 2020 가을 카오스강연을 펼치고 있다. 지난 7일부터 오는 12월 9일까지 매주 수요일 저녁 8시, 총 10회에 걸쳐 내로라하는 전문가들이 강연을 한다. ‘AI 크로스’를 주제로 의학, 기후, 음악, 수학, 로봇 공학 등 각 학문 분야에서 AI를 어떻게 최첨단으로 활용하고 있는지 살펴본다. 이번 3강에서는 이세민 울산과학기술원 교수(생명과학부)가 ‘AI와 게놈 빅데이터를 이용한 정밀의학’에 대해 강연했다.

 

카오스재단 ‘AI 크로스’ 강연 및 연재 순서

1 브레인 3.0 AI와 뇌공학이 바꿀 인류의 미래

2 수학을 통하여 세상을 3차원으로 보는 법

3 게놈데이터를 이용한 정밀의료

4 딥러닝으로 엘니뇨 예측하기

5 컴퓨터 비전과 딥러닝의 현재와 미래

6 AI의 사고과정을 설명할 수 있을까?

7 인간지능을 능가하는 인공지능이 출현할 것인가?

8 바이오메디컬 인공지능

9 헬로 딥러닝: 직관적이고 명확하게 딥러닝을 이해하기

10 음악과 인공지능의 만남

 

인간의 학습법을 모사한 머신러닝

단순한 기계와 특별한 인간

슈퍼인공지능 출현 가능성은?

 

DNA 독해하는 인공지능

게놈 빅데이터와 정밀의료 시스템 구축

한국형 바이오 데이터의 미래

 

생명은 DNA로 쓰인 텍스트다. 생명의 텍스트를 읽기 위해서는 DNA, 즉 유전정보를 해독해야 한다. 인간 역시 마찬가지다. 인간을 완벽하게 해독해낸다면 인간에게 벌어지는 일들도 제어할 수 있을 것이다. 생로병사의 정복, 생명공학이 의학과 만나는 지점이다.

 

문제는 텍스트의 양이 너무 방대하다는 점이다. 인간의 체세포에 내재된 DNA 속 염기 쌍은 약 30억개에 이른다. 이 가운데 2% 정도만이 유의미한 유전 정보 형성에 기여한다. 나머지는 미지의 세계다. 밝혀진 것과 아직 미지인 것을 모두 합친 유전 정보 전체를 ‘게놈(genome, 유전체)’이라고 부른다. 게놈은 아직 인류에게 ‘완독하지 못한 책’이다.

 

지난 21일 저녁 카오스재단 ‘AI크로스’ 세 번째 강연이 온라인 생중계로 진행됐다. 이세민 울산과학기술원 교수(생명과학부)는 인간이라는 생명 읽기 프로젝트가 어느 지점까지 와 있는지를 정밀의학과 인공지능 기계학습이라는 키워드로 풀어냈다.

 

게놈 데이터 실용화를 위해선 양질의 데이터 확보가 중요하다. 사진 = 유튜브 강연 캡처

 

데이터의 양보다 양질의 데이터가 중요

 

정밀의학은 간단히 말해 ‘개인 맞춤형 의학’이다. 기존 치료법이 각각의 질병에 맞춰서 단일한 치료 전략을 설정하는 데 반해, 정밀의학은 환자의 유전 정보, 가족력, 생활 습관, 임상 정보 등을 분석해 환자에 최적화된 치료 방법을 예측한다.

 

따라서 정밀의료의 성패는 두 축에 달려 있다. 할 수 있는 한 많은 데이터를 확보하는 일, 그리고 방대한 데이터를 효과적으로 읽어내는 방법을 구축하는 일이다. 전자의 중추가 게놈 빅데이터라면 후자의 대표 기술은 기계학습이다.

 

“많은 데이터 중에서도 정밀의학은 게놈 데이터가 핵심이다.” 이 교수는 강조한다. 인간의 DNA는 세포가 분열될 때마다 복제, 전승된다. 낮은 확률이지만 복제 과정에서 끊임없이 염기 서열에 변이가 일어난다. 이 모든 변이와 염기 정보를 분석하기 위한 방법론은 발전을 거듭해 왔다.

 

최초의 기술은 프레데릭 생어가 개발한 ‘생어 시퀀싱(1977)’다. DNA 복제 과정을 분절적으로 통제한다는 아이디어에서 시작됐으나 사람의 유전체 분석은 엄두도 낼 수 없는 수준이었다. 이후 분석 기술과 그 성과는 ‘샷건 시퀀싱(1980)’을 거쳐 ‘휴먼 게놈 프로젝트(2003)’, ‘차세대 염기서열 분석(NGS)’에 이른다. 이 교수는 “현재 분석 기술은 최초의 ‘생어 시퀀싱’에 비해 약 천만 배의 효율을 낸다”고 설명했다.

 

다음 단계는 게놈 정보 실용화다. 염기서열분석을 통해 축적한 유전 정보의 의미를 해석해 의료 등에 적용하는 것이다. 이 과정에서 기계학습이 동원된다. AI의 한 분야라고도 할 수 있는 기계학습은 쉽게 말해 “경험을 통해 자동으로 학습하는 컴퓨터 알고리즘”이다. 고차원의 방대한 데이터를 다루는 영역에서 각광받고 있다.

 

이 교수의 연구 영역인 암 게놈 분석에도 기계학습이 동원되고 있다. 암은 대표적인 유전체 질환이다. 유전 정보 내부에서 발생하는 변이, 흡연과 자외선 등 외부 환경에 의한 변이, 바이러스의 개입 등이 복잡하게 얽히면서 암세포를 발생시킨다. 이 다양한 게놈 정보를 분석해 항암제의 반응성을 예측하거나 면역항암제 개발하는 데 기계학습이 활용되고 있다.

 

이세민 울산과학기술원 교수는 게놈 빅데이터로 개인별 맞춤 의학이 가능해졌다고 말했다. 사진 = 유튜브 강연 캡처
이세민 울산과학기술원 교수는 게놈 빅데이터로 개인별 맞춤 의학이 가능해졌다고 말했다.
사진 = 유튜브 강연 캡처

 

한국형 게놈 프로젝트는 아직 걸음마

 

“결국 기계 학습의 핵심은 알고리즘보다 양질의 데이터”라는 것이 이 교수의 설명이다. 아무리 정교한 자가 학습 체계를 갖췄더라도 학습해야 하는 데이터가 빈약하면 제대로 된 분석과 예측을 할 수 없다. 대표적인 사례가 IBM의 AI기반 정밀의료 시스템 ‘왓슨’이다. 한국에서도 2016년말부터 일부 병원이 왓슨을 도입했다. 그러나 실제 임상과 비교해 정확도가 떨어지는 사례가 다수 보고되면서 한계가 명확하다는 평가를 받는다. 그 원인으로 이 교수는 “한국인에 대한 특이 데이터가 부족했던 점”을 지적한다.

 

바이오 빅데이터를 위해 정부가 나섰다. 올해부터 시범 시행되는 ‘국가 바이오 빅데이터 구축 사업’은 한국인 2만명 이상의 유전체 데이터 구축과 16개 희귀질환 임상정보 수집을 목표로 한다. 사업의 일환으로 이 교수가 속한 울산과학기술원에서도 ‘울산만명게놈프로젝트’를 진행 중이다. 한국인 만 여명의 게놈 정보를 수집하는 기획이다.

 

자연스럽게 ‘데이터 보안’ 문제가 따라붙는다. 강연 말미에 “양질의 데이터 확보와 관련해서 현재의 데이터 보안 전략은 어떻게 수립됐나”라는 질문이 나왔다. 이 교수는 “유전체 정보는 개인을 특정할 수 있기 대문에 관련 법령에 따라 익명화, 암호화 등 기술을 동원해 보안을 확보하는 데 주력하고 있다”고 답변했다.

 

이 교수는 “염기서열 분석만으로 모든 질병을 완파하기는 어렵다”며 “아주 머지 않은 미래에 암은 관리 가능한 질환이 되지 않을까”라고 기대했다. 유전학적 요인에 더불어 문화적 요인, 생활 패턴 등 후생적 환경 요인, 그리고 임상자료가 같이 고려될 때 정밀한 치료 전략을 수립할 수 있다는 것이다. 

 

이외에도 AI를 활용한 우울증과 자살 위험도 예측, 유전 변이를 통한 암 발병 양상 등이 강연에서 설명됐다.

 

 

박강수 기자 pps@kyosu.net
 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.