UPDATED. 2020-12-03 17:55 (목)
막강한 ‘엘니뇨’ VS 정교한 딥러닝, 예측 싸움
막강한 ‘엘니뇨’ VS 정교한 딥러닝, 예측 싸움
  • 박강수
  • 승인 2020.11.02 10:37
  • 댓글 0
이 기사를 공유합니다

카오스재단 ‘AI 크로스’ 강연 ④ 딥러닝으로 엘니뇨 예측하기

카오스재단(이사장 이기형)이 인공지능(AI)을 주제로 2020 가을 카오스강연을 펼치고 있다. 지난달 7일부터 오는 12월 9일까지 매주 수요일 저녁 8시, 총 10회에 걸쳐 내로라하는 전문가들이 강연을 한다. ‘AI 크로스’를 주제로 의학, 기후, 음악, 수학, 로봇 공학 등 각 학문 분야에서 AI를 어떻게 최첨단으로 활용하고 있는지 살펴본다. 이번 4강에서는 함유근 전남대 교수(지구환경과학부)가 ‘인공지능을 활용한 엘니뇨 예측’에 대해 강연했다.

 

카오스재단 ‘AI 크로스’ 강연 및 연재 순서

1 브레인 3.0 AI와 뇌공학이 바꿀 인류의 미래

2 수학을 통하여 세상을 3차원으로 보는 법

3 게놈데이터를 이용한 정밀의료

4 딥러닝으로 엘니뇨 예측하기

5 컴퓨터 비전과 딥러닝의 현재와 미래

6 AI의 사고과정을 설명할 수 있을까?

7 인간지능을 능가하는 인공지능이 출현할 것인가?

8 바이오메디컬 인공지능

9 헬로 딥러닝: 직관적이고 명확하게 딥러닝을 이해하기

10 음악과 인공지능의 만남

 

인간의 학습법을 모사한 머신러닝

단순한 기계와 특별한 인간

슈퍼인공지능 출현 가능성은?

 

평년 대비 해수면 온도가 높으면 빨간색, 낮으면 파란색으로 표시된다. 엘니뇨에서는 적도 동태평양을 중심으로 빨간색이, 라니냐에서는 파란색이 나타난다
평년 대비 해수면 온도가 높으면 빨간색, 낮으면 파란색으로 표시된다.
엘니뇨에서는 적도 동태평양을 중심으로 빨간색이, 라니냐에서는 파란색이 나타난다

 

‘엘니뇨’를 처음 알아본 사람들은 페루와 에콰도르의 어부들이다. 크리스마스가 되면 인접한 바닷물 온도가 올라가는 일이 주기적으로 벌어졌다. 해수 온도가 상승하면 어획량이 바닥을 치기 때문에 어부들은 출어를 포기하고 집에서 성탄절을 보냈다. 부득이한 ‘크리스마스 선물’이었던 셈이다. 이 선물에 어부들은 ‘아기 예수(El Niño. 스페인어로 남자 아이)’라는 이름을 지어줬다.

 

엘니뇨는 열대 지방 동태평양과 중태평양 해수면 온도가 평상시보다 높은 상태로 수개월 지속되는 현상을 가리킨다. 2~5년 주기로 찾아온다. ‘이상 현상’이라는 인식과 달리 전지구적 관점에서는 정기적인 순환 활동으로 볼 수 있다. 다만 그 영향력이 전세계에 걸쳐 막대하게 나타난다는 점에서 ‘엘니뇨 예측’은 기후학자들의 영원한 숙제로 여겨진다.

 

지난달 28일 저녁 온라인 생중계된 카오스재단 ‘AI크로스’ 네 번째 강연에서 함유근 전남대 교수(해양학과)가 엘니뇨 예측이라는 숙제를 인공지능으로 풀어낸 과정에 대해 밝혔다. 함 교수 연구팀은 기계학습 ‘딥러닝’을 적용해 엘니뇨 예측 모델을 획기적으로 개선하는 데 성공했다. 성과를 인정받아 지난해 9월 세계에서 가장 오래된 과학 저널 <네이처>에 논문이 게재되기도 했다.

 

지난달 28일 함유근 교수가 막강한 엘니뇨를 인공지능으로 어떻게 예측하고 정확도를 높이는지에 대해 강연했다. 사진 = 유튜브 강연 캡처
지난달 28일 함유근 교수가 막강한 엘니뇨를 인공지능으로 어떻게 예측하고 정확도를 높이는지에 대해 강연했다. 사진 = 유튜브 강연 캡처

 

기후학자의 오래된 도전, 엘니뇨 예측

 

“엘니뇨는 여러 기후 현상 중에서도 가장 강력하고 뚜렷하게 관측되는 현상이다” 함 교수의 설명이다. 해수 온도가 평년 대비 약 0.5°C 올라갈 뿐이지만 지구 전역의 기후를 휘저어 놓는다. ‘슈퍼 엘니뇨’가 찾아왔던 1997~1998년과 2015~2016년, 동남아시아 지방의 극심한 가뭄과 함께 인도네시아에서 대규모 산불이 발생했고 남미 서안에는 폭우와 홍수 피해가 잇따랐다. 기상 재난은 곡물 가격 급등으로 이어지며 혼란을 가중시켰다.

 

재난 자체를 막을 수는 없으나 미리 대비할 시간을 번다는 측면에서 엘니뇨 예측은 중요하다. 문제는 거대하고 복잡한 기후 현상인 만큼 예측이 굉장히 어렵다는 점이다. 함 교수는 2014년의 사례를 든다. “2014년 봄 전세계 30여 개 기관에서 그 해 겨울 강력한 엘니뇨가 나타날 것이라고 예측했으나 실제로 그 엘니뇨가 발생한 것은 약 2년 뒤인 이듬해 겨울이었다” 이 오판은 6~9개월 뒤의 엘니뇨에 대한 중장기 예측이 얼마나 어려운가를 말해준다.

 

예측이 어긋나는 원인으로 함 교수는 크게 두 가지를 짚는다. 첫 번째는 기존의 예측 시스템인 ‘전지구 모형 시뮬레이션’의 한계다. 쉽게 말해 ‘지구를 베끼는 방법론’이다. 가상의 지구에 강수, 구름 발생, 해류, 바람, 온도 변화 등 물리 현상을 프로그래밍한 뒤 이를 바탕으로 실제 지구의 변화를 예측하는 방식이다. 문제는 실제 지구를 완벽하게 재현할 수 없기 때문에 누락된 요소들로 인해 오차가 발생한다는 점이다. 이를테면 가상 지구에는 인간의 산업 활동 정보가 들어가 있지 않다.

 

두 번째 원인은 ‘나비효과’다. 아주 사소한 초기의 차이가 몇 단계를 거치고 나면 전혀 다른 거대한 격차로 이어지는 일을 가리킨다. “브라질에서 나비가 날개 짓을 하면 텍사스에 토네이도가 일어난다”는 캐치프레이즈로 유명하다. 함 교수는 “실제 지구와 가상의 지구 사이 미세한 정보값 차이가 전혀 다른 결과로 이어지면서 예측 자체가 무의미한 순간이 온다”고 설명한다. 종합하면, 엘니뇨라는 거대한 기후 현상 자체의 복잡성과 이를 일일이 따라잡지 못하는 기술력의 간극 탓에 예측은 곧잘 실패한다.

 

기계 학습을 통한 기후 예측 분투기

 

3년 전, 함 교수는 이 복잡한 과업에 기계학습을 적용해보자는 아이디어를 떠올렸다. 인공지능 스스로 기후 변화의 통계 정보를 분석하도록 하자는 것이다. 곧바로 부딪힌 난관은 데이터 부족이었다. 알려진 것처럼 딥러닝을 위시한 기계학습의 첫 번째 조건은 풍부한 학습용 샘플 데이터다. 양질의 데이터가 많으면 많을수록 알고리즘의 예측도 정밀해진다.

 

그러나 인류가 실제 지구의 해수면 온도를 관측하기 시작한 것은 1850년대부터였다. 게다가 엘니뇨는 1년에 한번 발생 여부가 결정되기 때문에 실측 데이터는 1년에 한 개씩 기껏해야 150여 개 내외다. 터무니없이 부족한 양이다. 함 교수 연구팀은 묘안을 냈다. 앞서 언급한 ‘가상 지구 모형’의 시뮬레이션 정보를 학습 데이터에 추가한 것이다. 가상의 지구에서 벌어진 ‘가상의 엘니뇨’ 정보를 샘플로 활용했다.

 

다음 문제는 두 종류 데이터 사이 질적 격차다. 가상 지구 데이터는 실제 지구 데이터보다 양은 많지만 질적인 면에서 떨어진다. 실제 지구 데이터는 양질의 관측 자료지만 양이 적다. 실제 지구의 기후를 예측하는 시스템을 만들어야 하기 때문에 가상 데이터와 실제 데이터를 동급으로 취급할 수도 없다. 딜레마 상황이다. 여기서 동원된 방법론이 ‘전이학습’이다.

 

전이학습의 원리는 다음과 같다. 사과를 식별하는 학습 알고리즘을 개발해야 하는데 사과 사진은 세 개 뿐인 반면 사과와 비슷한 배 사진은 풍부하다고 가정해보자. 이 경우 일단 상대적으로 풍족한 배 데이터를 바탕으로 배 식별 모형을 구축한다. 이후 이 모형을 사과용으로 전이시켜 사과 식별 시스템을 리모델링한다. 여기서는 가상 지구 기후 데이터가 배 역할을 하고 실제 지구 기후 데이터가 사과 역할을 했다고 볼 수 있다.

 

전이 학습의 원리를 예시로 든 사진. 샘플이 많은 데이터에서 모형을 구축하고 샘플이 적은 데이터로 지식을 전이시키는 원리다.
전이 학습의 원리를 예시로 든 사진.
샘플이 많은 데이터에서 모형을 구축하고 샘플이 적은 데이터로 지식을 전이시키는 원리다.

 

딥러닝 기후 예측의 완성도는?

 

가상 지구 모형 데이터와 전이학습을 가미한 딥러닝 엘니뇨 예측 모형의 성능은 놀라운 성과를 보였다. 전세계 각국 기관에서 개발한 예측 시스템이 11~12개월 이후 시점에 대한 예측까지만 유의미한 정확도를 보여준 반면, 딥러닝 모형은 17~18개월까지 예측 신뢰도를 보여줬다. 타 모델보다 6개월 더 앞서서 정확한 예측을 할 수 있게 된 것이다.

 

딥러닝 모형과 기존 모형들의 엘니뇨 예측 성능을 비교한 그래프. 딥러닝 모형이 더 먼 기간까지 예측 가능하다.
딥러닝 모형과 기존 모형들의 엘니뇨 예측 성능을 비교한 그래프.
딥러닝 모형이 더 먼 기간까지 예측 가능하다.

 

아울러 함 교수 연구팀은 엘니뇨의 종류를 구분하는 기능까지 구현했다. 엘니뇨의 패턴은 같은 열대지역 태평양 구간에서도 중태평양의 온도가 올라가는지, 동태평양의 온도가 올라가는지, 둘 다 올라가는지에 따라 바뀐다. 별 것 아닌 차이 같지만 세계 기후에 미치는 영향은 크다. 중태평양 엘니뇨에서는 한국 등 동아시아 강수량 증가가 두드러지는 반면, 동태평양 엘니뇨에서는 남미 국가들이 더 큰 영향을 받는다.

 

함 교수 연구팀의 딥러닝 모형은 동태평양, 중태평양, 둘이 섞인 패턴, 이렇게 세 종류의 엘니뇨를 구분하는 데서도 66~70%의 정확도를 보였다. 기존의 다른 예측 모형들이 ‘삼지선다’ 객관식에서 랜덤으로 찍어 맞추는 수준을 벗어나지 못한 데 반해 유일하게 ‘찍기’보다 나은 정확도를 보인 것이다.

 

딥러닝 모형과 기존 모형들의 엘니뇨 종류에 대한 예측 정확도를 비교한 그래프, 회색 영역은 랜덤으로 찍어서 나오는 정확도를 가리킨다. 랜덤 정확도를 넘어선 모형은 딥러닝 모형뿐이다.
딥러닝 모형과 기존 모형들의 엘니뇨 종류에 대한 예측 정확도를 비교한 그래프.
회색 영역은 랜덤으로 찍어서 나오는 정확도를 가리킨다. 랜덤 정확도를 넘어선 모형은 딥러닝 모형뿐이다.

 

일련의 연구는 지난해 9월 18일 「딥러닝을 통한 중장기 엘니뇨 예측(Deep learning for multi-year ENSO forecasts)」이라는 제목으로 <네이처>에 실렸다. 함 교수는 “딥러닝 모형의 활용 가능성은 무궁무진하다”며 “엘니뇨뿐 아니라 다른 기후현상, 지구온난화나 태풍, 장마 등에도 적용 가능할 것으로 기대된다”고 소감을 밝혔다.

 

현재 함 교수 연구팀의 딥러닝 모형은 매달 엘니뇨 예측 데이터를 홈페이지에 공개하고 있다. 공개된 계측에 따르면 올해 겨울에는 엘니뇨와 반대로 적도 태평양 해수면 온도가 내려가는 ‘라니냐(La Niña)’가 예상된다고 한다. “방송에 나갔으니 꼭 예측이 맞았으면 좋겠다”며 함 교수는 강연 말미에 쑥쓰럽게 웃었다.

 

이 외에도 기계학습과 엘니뇨에 대한 보다 자세한 이야기, 기상예보가 틀리는 이유 등이 강연에서 나왔다.

 

 

박강수 기자 pps@kyosu.net

 


관련기사

댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.