세종대 영어영문학과 김수연 교수, 국내 최초 80개국 외국인의 한국어 음성 데이터 구축

- 외국인의 어눌한 한국어 발음도 판독 -

세종대학교(총장 배덕효) 영어영문학과 김수연 교수는 국내 최초로 80개국 외국인의 한국어 음성 데이터를 구축하는 데 성공했다.

김 교수의 한국어 음성 데이터 구축은 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 지원하는 ‘AI 학습용 데이터’ 구축사업의 일환으로 진행됐다. 사업은 음성인식 인공지능을 학습시키는 데이터 수집을 목적으로 수행됐다. 학습된 인공지능은 외국인의 어눌한 한국어 발음까지 정확히 알아들을 수 있다.

김 교수는 세종대, 이화여대와 민간기업 4곳(cslee, 드림비트, 디그랩, 액션파워)으로 구성된 산학협력단에서 이번 사업을 기획하고 주도했다.

김 교수의 언어인지 연구실 연구팀은 인공지능의 한국말 인식 정확도를 향상하기 위해 한국전자통신연구원(ETRI)의 인공지능 연구실과 협력했다. 연구 협력을 통해 학습용 데이터에 대한 기초연구를 수행한 후 구축사업을 진행했다.

연구팀은 기초연구로서 언어학적 분석을 통해 언어권별로 한국말을 어떻게 잘못 발음하는지 파악했다. 크게 6개 언어군(영어, 중국어, 일본어, 태국어, 베트남어, 기타)별로 ‘모국어별 오류 패턴’을 정리했다. 인공지능에 언어권별 한국어 발음 방식의 차이를 학습시키는 것이 중요했다.

연구팀은 지난해 4월부터 12월까지 8개월에 걸쳐 총 4천 3백 시간 분량의 인공지능 학습용 데이터를 구축했다. 외국인 2천 명을 대상으로 언어별 오류를 극대화한 한국어 대본을 읽게 했다. 참여국 80곳, 모국어 수 65개에 달하는 음성 데이터를 수집하고 가공했다.

AI 학습용 데이터는 누구나 사용할 수 있도록 개방될 예정이다. 인천국제공항에서 볼 수 있는 외국인 전용 키오스크의 음성인식기에 적용될 예정이다. 또한 한국전자통신연구원(ETRI)의 한국어 학습용 인공지능 모델 개발에도 활용된다. 민간기업도 ‘AI 허브’ 포털에서 데이터를 무료로 내려받을 수 있다.

김 교수는 “외국인의 한국어 음성 데이터는 구축 난도가 상당해 그간 업계에서도 희귀 데이터로 꼽혔다. 한국의 경제적 위상 상승과 한류의 영향으로 한국어는 학습자가 가장 많이 늘어나고 있는 언어 중 하나다. 앞으로 음성 데이터가 더 구축되면 각 언어에 특화된 한국어 AI 학습기도 개발할 수 있을 것이다”라고 말했다

방완재 다른기사 보기