한양대 ERICA 정우환 교수팀, 자연어처리학회 EMNLP에서 논문 2편 발표

- 금융특화언어모델... 학습시 에너지사용량 83% 감소, 정확도는 향상
- 개체명인식... 서로 다른 데이터셋 모아 더욱 세분화되고 정확한 분류

한양대학교 ERICA 인공지능학과 정우환 교수 연구팀(데이터사이언스 연구실)이 8일 싱가폴에서 개최되는 자연어처리 분야 최고의 국제학술대회 ‘EMNLP 2023’에서 2편의 논문을 발표한다.

정우환 교수팀이 발표하는 첫 번째 연구성과는 경제 분야 특화 언어모델 FiLM이다. 지난 몇년간 GPT, BERT와 같은 사전학습 언어모델은 거의 모든 자연어처리에 기본적으로 활용되는 핵심기술로 자리 잡아왔다. 특히 최근 경제분야에 특화된 언어모델을 개발해 경제관련 자연어처리 정확도를 높이고자 하는 연구들이 진행되고 있다.

이번 연구에서는 그동안 발표된 경제분야특화 언어모델이 일반 언어모델에 비해 오히려 정확도가 낮은 경우가 많다는 것을 밝혔다. FiLM은 이를 극복하기 위해 다양한 데이터를 학습에 활용함으로써 언어모델 학습에 필요한 에너지 사용량을 83%가량 감소시키면서도 더 높은 정확도를 달성한 언어모델이다.

두 번째는 텍스트에서 사람, 장소, 조직 등을 의미하는 단어를 찾는 개체명 인식에 관한 연구이다. 개체명 인식은 자연어처리 분야애서 매우 중요한 문제로 이미 다양한 데이터셋이 존재하지만 데이터셋마다 분류체계가 달라 이를 함께 활용할 수는 없었다.

이번 연구에서는 이처럼 분류체계가 다른 데이터셋을 동시에 학습에 활용하는 방식을 제안하였다, 이를 통해 더욱 세부적인 분류로 개체명을 인식할 수 있을 뿐만 아니라 높은 정확도도 함께 달성할 수 있었다.

정우환 교수는 이번 논문 발표에 대해 "박사과정 없이 석사과정 및 학부생들이 이뤄낸 이례적인 성과로 연구원들의 미래가 더욱 기대된다."고 밝혔다.
한편, 이번 연구는 과학기술정보통신부와 산업통상자원부의 지원을 받아 이뤄졌으며, 연구팀의 신개발 기술은 정우환 교수팀의 실험실 창업기업이자 금융AI 스타트업인 램플리의 서비스에 활용될 예정이다.

1) 논문명: Exploring the Impact of Corpus Diversity on Financial Pretrained Language Models (최재영, 노건웅, 김나연, 안세윤, 정우환)
2) 논문명: Enhancing Low-resource Fine-grained Named Entity Recognition by Leveraging Coarse-grained Datasets (이수아, 오석진, 정우환)

하영 기자 다른기사 보기