UPDATED. 2020-12-03 09:52 (목)
2차원 점들의 좌·우 대응점 찾기, AI가 세상보는 법
2차원 점들의 좌·우 대응점 찾기, AI가 세상보는 법
  • 김재호
  • 승인 2020.10.20 08:57
  • 댓글 0
이 기사를 공유합니다

카오스재단 ‘AI 크로스’ 강연 ② 수학을 통해 세상을 3차원으로 보는 법

카오스재단(이사장 이기형)이 인공지능(AI)을 주제로 2020 가을 카오스강연을 펼치고 있다. 지난 7일부터 오는 12월 9일까지 매주 수요일 저녁 8시, 총 10회에 걸쳐 내로라하는 전문가들이 강연을 한다. ‘AI 크로스’를 주제로 의학, 기후, 음악, 수학, 로봇 공학 등 각 학문 분야에서 AI를 어떻게 최첨단으로 활용하고 있는지 살펴본다. 이번 2강은 현동훈 서울대 교수(수리과학부)가 인간의 눈과 인공지능이 어떻게 사물을 인식하는지에 대해 강연했다.

 

카오스재단 ‘AI 크로스’ 강연 및 연재 순서

1 브레인 3.0 AI와 뇌공학이 바꿀 인류의 미래

2 수학을 통하여 세상을 3차원으로 보는 법

3 게놈데이터를 이용한 정밀의료

4 딥러닝으로 엘니뇨 예측하기

5 컴퓨터 비전과 딥러닝의 현재와 미래

6 AI의 사고과정을 설명할 수 있을까?

7 인간지능을 능가하는 인공지능이 출현할 것인가?

8 바이오메디컬 인공지능

9 헬로 딥러닝: 직관적이고 명확하게 딥러닝을 이해하기

10 음악과 인공지능의 만남

 

인간의 학습법을 모사한 머신러닝

단순한 기계와 특별한 인간

슈퍼인공지능 출현 가능성은?

 

인간과 인공지능의 시각처리
2차원과 3차원의 변환관계와
점구름들의 대응점 찾기

 

“시각은 데이터 수집의 가장 중요한 방법이다.” 현동훈 서울대 교수(수리과학부)는 지난 14일 온라인으로 생중계 된 카오스재단 ‘AI 크로스’ 강연에서 인공지능이 사물을 인식하는 방법을 알려줬다. 인간과 상호작용하는 인공지능을 만들기 위해선 데이터 수집 과정이 중요하다. 과연 수학은 어떻게 인공지능에 응용될까? 여기서 핵심은 바로 ‘대응점 찾기’다. 왼쪽 눈과 오른쪽 눈에서 각각 사물을 인식하는 지점들이 어떻게 서로 대응(correspondece)되는지 찾는 것이다. 


예를 들어서, 로마의 콜로세움을 인공지능이 인식해본다고 하자. 그렇다면 AI는 온라인에서 콜로세움 관련한 사진들을 모두 수집한다. 현 교수는 2천97개의 이미지들에서 81만9천242개의 점들이 만들어진다고 설명했다. 이쪽 사진의 점이 다른 사진의 어느 점에 해당될 것인가 하는 대응의 문제가 쉽지 않다. 약 82만개의 3차원 좌표를 찾아냈는데, 대부분의 시간이 대응을 찾는 데 쓰인다.


좀 더 쉽게 접근해보자. 수학을 통해 세상을 3차원으로 보는 법은 영상왜곡을 보정하는 것이다. 타일의 경우, 옆에서 보는 모습과 바로 위에서 보는 모습은 다르다. 옆에서 보면 소실점이 생기지만 위에서 보면 선들이 완벽하게 평행하거나 수직이 된다. 여기서 타일의 선은 계속 뻗어나가면 철도 레일처럼 지평선에서 만나는 것처럼 보인다. 지평선은 무한대로 뻗어나가기에, 그 무한대로 나아가는 방정식을 세우면 실제 타일의 모습을 찾아낼 수 있다. 관점이 어떻게 변하느냐를 찾아내는 것이다. 

 

현동훈 서울대 교수는 인간과 인공지능이 3차원을 인식하는 방법을 설명했다.
핵심은 2차원들의 좌·우 좌표들을 대응시키는 것이다. 사진 = 유튜브 강연 캡처. 

 

 

AI의 시각처리, 대응점 찾기가 핵심

 

인간의 3차원 지각 과정은 눈 앞의 사물이 왼쪽 눈을 감으면 왼쪽으로 좀더 가깝게, 오른쪽 눈을 감으면 오른쪽으로 더 가깝게 보이는 방식이다. 가령, 3차원 TV의 액정 셔터 안경(Active shutter 3D system)을 보자. 이 안경은 디스플레이의 좌·우 신호에 따라 안경의 죄·우측 렌즈가 선택적으로 개폐되면서 3D 입체 영상이 만들어지는 방식으로 작동한다. 다시 말해 왼쪽 눈과 오른쪽 눈에 들어오는, 서로 다른 2차원 시각 정보들을 한쪽을 닫고 다른쪽을 여는 식으로 교차해주면서 3차원 물체를 보게 되는 것이다. 교차는 사람이 알아차리지 못하도록 60Hz 정도로 빠르게 지나간다.  


현 교수는 3차원 영상의 주요 문제로 ‘캘리브레이션(Calibration)’과 대응을 꼽았다. 캘리브레이션은 보정, 영점 조정, 바로잡기다. 즉, 3D 공간좌표와 2D 영상좌표 사이의 변환관계를 찾는 과정이다. 콜로세움의 사진들의 경우, 어느 위치에서 찍었는지 캘리브레이션 작업을 해서 점구름(Point Cloud)를 찾아낸다. 점구름은 어떤 좌표계에 속한 점들의 집합이다. 


요컨대, 3차원 영상 재구성의 주요 수학적 문제는 ▷ 캘리브레이션 ▷ 대응점 찾기 ▷ 표면 보정이다. 표면 보정은 3차원 점구름을 찾아냈을 때, 점과 선들을 면들로 만들어 당신에게 예쁘게 보이도록 하는 것이다. 

 

 

2차원과 3차원의 변환관계로 점구름 찾기

 

인공지능에게는 어떻게 3차원 세계를 지각할 수 있도록 만드는가? 하드웨어를 이용하는 방법이 있다. 마치 돌고래가 음파를 쏴서 앞의 대상을 인지하는 것과 같다. 3차원 데이터 수집 방법은 광자(photon), 즉 레이저를 쏴서 돌아오는 파동을 분석하는 라이다(LIDAR)가 있다. 한편, 스테레오 비전의 수학적 모델은 관점이 다른 두 카메라가 대상을 찍는 것이다. 두 카메라에서 캘리브레이션을 한다. 왼쪽 눈의 좌표계와 오른쪽 눈의 좌표계에서 기준좌표를 맞추는 작업이 캘리브레이션이다. 왼쪽 눈(카메라)과 오른쪽 눈(카메라)에서 각점들이 어디에 해당하는지 찾는 게 대응점 찾기인데, 어려운 문제다. 


한편, 카메라의 수학적 모델은 3X4 행렬이다. 원래는 초점에서 대상을 볼때는 2X3행렬인데, 하나씩 늘어나는 이유는 지평선에서 무한대를 이용하기 위해서다. 예를 들어, AI는 아기 사진을 496X743X3 행렬로 인식한다. 


적어도 7개 이상의 대응점쌍을 찾아야 카메라 행렬을 거쳐, 특징점 대응과 3차원 재구성이 이뤄질 수 있다. 현 교수에 따르면, 대응점을 찾기 어려운 것은 특징점들이 다 비슷하기 때문이다. 그래서 레이저를 쏴서 임의적으로 특징점들을 만들어낸다. 컴퓨터는 어떻게 대응점들을 찾는가? 엣지 부분들은 숫자에서 도드라지기 때문에 찾아낼 수 있다. 코너는 가로세로에서 다 도드라지기 때문에 대응점을 찾아낼 수 있다. 구체적인 예로, 현 교수는 실제 로봇의 눈을 캘리브레이션하는 방식을 설명했다.

 

김재호 기자 kimyital@kyosu.net 



댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.