KAIST, 시각 성능 높인 대형언어모델 공개

상업 모델 시각 성능 넘는 공개형 대형 언어모델 개발

[이데일리 강민구 기자] 한국과학기술원(KAIST)은 노용만 전기전자공학부 교수 연구팀이 오픈AI의 GPT-4V 등 초대형 언어모델의 시각 성능을 넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.

멀티모달 대형 언어모델은 글자뿐만 아니라 이미지 데이터 유형까지 처리할 수 있는 초대형 언어모델을 뜻한다. 인간 뇌에 있는 신경망의 개수와 유사한 수준의 초대형모델들이 만들어지고 있지만 학계에서는 개발하기 어려웠다.

노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 개발했다.

연구팀이 개발한 첫 번째 기술인 ‘콜라보(CoLLaVO)’는 현존 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 낮은 이유를 이미지 이해 능력이 떨어진다는 것에서 찾았다.

해당 능력을 보완해 시각·언어 업무 성능을 높이기 위해 이미지 내 정보를 배경과 물체 단위로 나누고 각 배경과 물체에 대한 정보를 멀티모달 대형언어모델에 입력으로 넣어주는 새로운 방법인 ‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 활용했다.

시각적 지시 조정 단계에서 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각·언어 업무 처리 능력을 서로 다른 측정지표로 학습해 서로 간 정보를 잃지 않게 만드는 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’도 제안했다.

두 번째 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아 만들었다.

노용만 교수는 “이번에 개발한 공개형 멀티모달 대형언어모델이 ‘허깅페이스 일간 화제의 논문’에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다”며 “모든 모델을 공개형 대형언어모델로 출시했기 때문에 앞으로 멀티모달 대형언어모델 발전에 기여할 것”이라고 말했다.

한편, 콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 국제 학회 ‘인공지능언어학회(ACL Findings) 2024’에 지난 달 16일자로 학회에 승인받았다. 모아이(MoAI)는 컴퓨터 비전 국제 학회인 ‘유럽 컴퓨터 비전 학회 2024’ 승인을 앞두고 있다.

강민구 (science1@edaily.co.kr)

IT/과학

KAIST, 시각 성능 높인 대형언어모델 공개