KAIST, 사물 개념 자가 학습하는 장면 인식 기술 개발...세계 '최초'

KAIST 안성진 교수팀이 개발한 기술로 복잡한 상황에서 객체 개념을스스로 학습하는 장면.

한국과학기술원(KAIST·총장 이광형)은 안성진 전산학부 교수팀이 미국 럿거스대와 공동연구로 사람의 라벨링 없이 스스로 영상 속 객체를 식별할 수 있는 인공지능(AI) 기술을 개발했다고 1일 밝혔다. 이 모델은 각 장면 객체를 명시적으로 라벨링하지 않아도 복잡한 객체들을 식별하는 최초 AI 모델이다.

기계가 주변 환경을 지능적으로 인지하고 추론하려면 객체와 그 관계를 파악하는 능력이 필수다. 대부분 연구는 영상 각 픽셀에 대응하는 객체 라벨을 사람이 일일이 표시하는 지도적 학습 방식을 사용했다. 수작업으로 오류가 발생하기 쉽고, 많은 시간·비용이 요구된다.

연구팀이 개발한 기술은 인간과 유사하게 환경을 관측하는 것만으로 객체 개념을 스스로 자가 학습하는 방식이다. 인간 지도 없이 스스로 객체 개념을 학습하는 AI는 차세대 인지 기술 핵심으로 기대돼왔다.

비지도 학습을 이용한 이전 연구들은 단순한 객체 형태와 배경이 명확히 구분되는 단순한 장면에서만 객체를 식별하는 단점이 있었다. 이와 달리 이번에 안성진 교수 연구팀이 개발한 기술은 복잡한 형태의 많은 객체가 존재하는 장면에도 적용될 수 있는 최초 모델이다.

이 연구는 그림 AI 소프트웨어인 'DALL-E'와 같이 텍스트 입력으로 사실적인 이미지를 생성할 수 있는 이미지 생성 연구에서 영감을 얻었다. 연구팀은 텍스트를 입력하는 대신, 모델이 장면에서 객체를 감지하고 그 객체 표상(representation)으로부터 이미지를 생성하는 방식으로 모델을 학습시켰다. 또 모델에 DALL-E와 유사한 트랜스포머 디코더를 사용, 사실적이고 복잡한 영상을 처리할 수 있게 했다.

연구팀은 복잡하고 정제되지 않은 영상뿐만 아니라 많은 물고기가 있는 수족관, 교통이 혼잡한 도로 상황을 담은 유튜브 영상에서도 모델 성능을 측정했다. 그 결과, 제시된 모델이 기존 모델보다 객체를 훨씬 더 정확하게 분할하고 일반화하는 것을 확인할 수 있었다.

연구팀을 이끈 안성진 교수는 “인간과 유사한 자가 학습 방식으로 상황을 인지하고 해석하는 혁신적인 기술”이라며 “시각적 상황인지 능력을 획기적으로 개선해 지능형 로봇 분야, 자율 주행 분야뿐만 아니라 시각적 AI 기술 전반에 비용 절감과 성능향상을 가져올 수 있다”고 말했다.

이번 연구는 미국 뉴올리언스에서 지난 11월 28일부터 개최돼 12월 9일까지 진행 예정인 세계 최고 수준의 기계학습(머신러닝) 학회인 제36회 신경정보처리학회(NeurIPS)에서 발표됐다.

김영준기자 kyj85@etnews.com

전자신문

IT

KAIST, 사물 개념 자가 학습하는 장면 인식 기술 개발...세계 '최초'