KAIST, 'GPT-4V' 뛰어넘는 이미지 분석 대형언어모델 개발

"기존 컴퓨터 비전 모델 활용해 시각 성능 높여"

콜라보 멀티모달 대형언어모델을 통한 이미지 분석 [KAIST 제공. 재판매 및 DB 금지]

(대전=연합뉴스) 박주영 기자 = 국내 연구진이 미국 오픈AI의 멀티모달 대형언어모델인 'GPT-4V'를 뛰어넘는 기술을 개발했다.

한국과학기술원(KAIST)은 전기·전자공학부 노용만 교수 연구팀이 비공개 상업모델인 'GPT-4V'와 구글 '제미나이-프로'(Gemini-Pro)를 뛰어넘는 공개형 멀티모달 대형언어모델 2종을 개발했다고 20일 밝혔다.

멀티모달 대형 언어모델(LMM)은 텍스트뿐만 아니라 이미지까지 분석·처리할 수 있는 대형언어모델이다.

오픈AI는 지난해 텍스트를 기반으로 한 대형언어모델인 '챗GPT'를 넘어 이미지와 음성까지 학습할 수 있는 LMM 'GPT-4V'를 출시했다. 챗GPT와 달리 GPT-4V의 파라미터(AI 모델의 성능을 보여주는 매개변수)는 공개되지 않았다.

연구팀이 개발한 '콜라보'는 기존 컴퓨터 비전 모델을 활용해 시각 성능을 획기적으로 높인 LMM이다.

이미지 정보를 배경과 물체 단위로 분할한 뒤 각 배경과 물체에 대한 정보를 기존 모델에 직접 입력할 수 있는 '크레용 프롬프트'라는 시각적 프롬프트(컴퓨터 신호)를 제안했다.

이어 크레용 프롬프트로 처리한 정보를 사람의 뇌처럼 각각 다른 신경망의 파라미터(매개변수)로 학습하는 방법으로 정보를 잃지 않게 만드는 전략을 세웠다.

이를 통해 이미지 내에서 배경과 물체를 구분하는 일차원적 시각 구분 능력이 크게 향상됐다고 연구팀은 설명했다.

연구팀은 추가로 3개의 컴퓨터 비전 모델을 학습해 시각 성능을 획기적으로 높인 '모아이'도 개발해 출시했다.

모아이 멀티모달 대형언어모델을 통한 이미지 분석 [KAIST 제공. 재판매 및 DB 금지]

노용만 교수는 "연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 '일간 화제의 논문'(Huggingface Daily Papers)으로 추천됐고, SNS를 통해 세계 연구자들에게 알려졌다"며 "모든 모델을 공개형 대형언어모델로 출시했기 때문에 멀티모달 대형언어모델 발전에 기여할 것으로 기대된다"고 말했다.

이병관 박사과정이 제1 저자로 참여한 이번 연구 결과는 자연어 처리(NLP) 분야 국제 학회 'ACL Findings 2024'에 지난 16일 자로 실렸다.

jyoung@yna.co.kr

▶제보는 카톡 okjebo

IT/과학

KAIST, 'GPT-4V' 뛰어넘는 이미지 분석 대형언어모델 개발