딥러닝은 기후 예측의 새로운 돌파구가 될 수 있나?

기후변화와 인공지능_③ 날씨 및 기후예측의 AI 기법 적용 -1)
데이터 폭발과 딥러닝
시간 지연이 예측모형 만들어
모수화 과정이 정확도 결정

*** 기후변화와 인공지능 연재 순서 ***
① 기후변화와 날씨 예측
② 날씨 및 기후 예측 방법
③ 날씨 및 기후예측의 AI 기법 적용 -1)
④ 날씨 및 기후예측의 AI 기법 적용 -2)

딥러닝은 비선형 변환 기법의 조합을 통해 높은 수준의 추상화를 시도하는 기계 학습 알고리즘의 집합이다. 즉, 다량의 데이터에서 핵심적인 내용을 직관적으로 찾아내는 사람의 사고방식을 흉내내기 위한 컴퓨터 프로그램이라고 할 수 있다.

딥러닝의 시초가 되는 인공신경망(Artificial Neural Network) 모델은 1950년대 후반에 처음 소개된 이후 전문가들에 의해 꾸준히 활용되어 왔으나 2000년대 중반까지 대중적인 관심을 받지는 못했다. 그러다가 2006년 제한된 볼츠만 머신을 이용한 학습 방법이 재조명되면서 다시 주목을 받게 되었는데, 이 당시 소개된 기법은 기존의 알고리즘이 가지고 있던 과적합 문제 등을 상당수 해결한 정도로까지 발전했다.

최근 딥러닝이 폭발적으로 활용되고 있는 데에는 딥러닝 알고리즘의 개선뿐만 아니라 외부적인 요인도 크게 작용했다. 강력한 그래픽처리장치(GPU) 의 개발은 딥러닝에 필요한 연산을 효과적으로 병렬화해 작업 시간을 크게 단축 시켰다. 또한, 인터넷을 통해 손쉽게 다량의 데이터를 수집할 수 있게 됨으로서 딥러닝 모형의 학습을 위한 충분한 수의 데이터가 확보되게 됐다. 위와 같은 내외부적인 요인들에 의해 딥러닝은 4차 산업혁명이라고 일컬어지는 디지털 혁명의 핵심이 되었으며, 이미 영상/이미지 분석, 음성 인식, 자연어 처리 등의 분야에 성공적으로 적용되어 뛰어난 결과들을 보여주고 있다.

딥러닝을 현세대 전지구 기후 모델(Global Climate Model) 의 새로운 요소로 추가해
전지구 기후 모형 기반의 예측 정확도를 높이려는 지구기계 프로젝트의 소개 이미지. 이미지 = <사이언스>

딥러닝 가능하도록 한 충분한 데이터

딥러닝의 거대한 물결은 기상 및 기후 분야에도 예외가 아니다. 합성곱신경망(Convolutional Neural Network) 기법은 이미지 분석에 탁월한 특징이 있어, 인공 위성 영상 판독에 적용되어 인공 위성의 활용도를 극대화하고 있다. 화재가 발생했던 시점의 인공 위성 영상을 학습에 활용해 사람이 일일이 확인하지 못하는 넓은 지역의 화재 여부를 인공 위성 이미지만으로 실시간 모니터링할 수 있으며, 과거 작물 수확량을 인공 위성 영상에 매치시켜 미국 전역의 각종 작물 수확량을 인공 위성 이미지만으로 한눈에 파악할 수 있게 된다.

최근 가장 활발히 적용이 시도되고 있는 분야는 기상(혹은 날씨) 예측 분야이다. 크게 두 가지 방향으로 진행되고 있는데, 첫째는 입력 자료와 출력 자료간의 시간 지연을 이용해 딥러닝 예측 모형을 만드는 것이다. 구글에서 개발한 다수의 레이더 영상으로부터 구름의 양과 이동 특성을 분석해 6시간 이후의 구름 분포 및 강수 유무를 예측이 가능한 합성곱신경망 딥러닝 모형, 중국 연구자들에 개발된 다음 날의 대기중 초미세먼지 농도 예측이 가능한 장단기 메모리(Long Short-Term Memory. LSTM) 딥러닝 모형 등이 대표적인 예시이다.

둘째는 딥러닝을 전지구 기후 모델의 새로운 요소로 추가해 기존 모형 기반의 예측 정확도를 높이려는 시도이다. 전지구 기후 모델의 예측 성능을 떨어뜨리는 주요 원인 중 하나는 구름 발달 과정 모의의 불확실성이다. 정확한 기상 예측을 위해서는 수증기가 미세먼지 사이즈의 물방울이 되고 그 물방울이 성장해서 무거워지면 떨어지는 강수 과정을 오차 없이 모의 해야 하는데, 이러한 구름 생성 과정을 모의하기에 현세대 전지구 기후 모델의 격자 규모는 너무나 크며, 구름 발달 과정의 현실적 모의를 위해 전지구 모형의 해상도를 높이기에는 현재의 컴퓨팅 자원이 너무나 부족하다. 이에, 모수화(모델의 격자 규모에서 계산된 변수를 사용해 암시적으로 그 효과를 반영하는 방법) 기법을 통해 구름 생성 과정을 모의한다.

쉽게 말해, 구름의 양, 높이 등을 통계적, 물리적 가정들을 이용해 ‘적당히’ 모의하는 것인데, 이 모수화 과정이 전지구 기상 모델의 정확도를 결정 짓는다고 해도 과언이 아니다. 기존의 통계적, 물리적 가정들의 불확실성이 크다보니, 차라리 딥러닝이 찾아낸 통계적인 관련성만을 통해 모수화 과정을 개발하고자 하는 것이 연구의 핵심 목표가 된다. 대표적인 예로, 캘리포니아 공과대학의 타피오 슈나이더 교수가 이끄는 연구팀이 구글의 전폭적인 지원을 받아 2018년부터 진행하고 있는 지구 기계(Earth Machine) 프로젝트가 있다.

모수화 과정이 기상 모델 정확도 높여

국내 현업 및 연구 기관들도 발빠르게 움직이고 있다. 2019년 7월, 기상청 산하 국립기상과학원은 벤처형 조직인 인공지능예보연구팀을 신설해 ‘알파웨더’ 개발에 착수했다. ‘알파웨더’는 차세대 인공지능 기술을 적용해 예보관의 예보생산과정을 학습한 후 예보관이 예보 정확도를 높일 수 있도록 지원하는 프로그램을 2021년 개발 완료하는 것을 목표로 한다. 또한, 한국과학기술정보연구원(KISTI) 는 위성 영상을 학습시켜 1-2시간 이후의 태풍 진로 및 이로 인한 강우량을 예측하는 딥러닝 시스템을 구축했다. 국내 학계에서도 활발히 연구가 진행중인데, 울산과학기술원 (UNIST) 임정호 교수 연구팀은 북극해빙면적 예측, 태풍 강도 예측 등에 딥러닝 기법을 활용하고 있다.

최근 2-3년간 기상 예측에 딥러닝이 적용된 학술 논문들이 활발히 출판되고 있는데 반해, 기후 예측에의 적용 사례는 아직 상대적으로 많지 않다. 그 이유는 학습에 이용할 수 있는 샘플 수의 차이에 있다. 매일매일의 날씨가 다르기 때문에 기상 예측을 위한 모형의 학습용 샘플은 하루에 한 개씩 늘어난다. 반면, 기후 현상은 계절적인 추세를 지칭하는 것이라 최소 1개월의 데이터를 평균해 분석하는데, 이는 기후 예측을 위한 모형의 학습용 샘플은 한 달에 한 개씩 늘어난다는 말이 된다.

즉, 같은 기간 관측을 하더라도 기후 관측 자료의 수는 기상 관측 자료 수의 3% 정도 밖에 되지 않는 것이다. 이러한 특성을 고려 하였을때, 인공 위성 관측이 활발히 이루어지기 시작해 대기장 관측의 질이 높아진 1980년 이후의 기후 샘플 수는 500개 정도이며, 현존하는 가장 오래된 재분석 자료(관측 자료와 모형 자료가 결합된 형태의 자료) 는 1870년 전후로 이 경우의 기후 샘플 수는 1,800개 정도가 된다. 여전히 딥러닝 모형을 학습 시키기에는 턱없이 부족하다.

함유근 전남대 교수·해양학과

서울대에서 대기과학으로 박사학위를 받았다. 그는 현재 인공지능을 이용한 기후예측 기법을 개발하고 있다. 함 교수는 2020년도 차세대 한국과학기술한림원 신입 회원으로 선출됐다.

함유근 다른기사 보기