오픈AI·구글 넘은 KAIST `멀티모달 AI`

AI모델 '콜라보'·'모아이' 개발
노용만 교수팀, 시각성능 향상
GPT4-V보다 정확도 10% 높아

KAIST는 GPT-4V, 제미나이-프로 등 기존 비공개형 상업용 멀티모달 대형언어모델(LLM)의 시각성능을 뛰어넘는 공개형 멀티모달 LLM인 '콜라보', '모아이'를 개발했다.

KAIST 제공 — KAIST는 GPT-4V, 제미나이-프로 등 기존 비공개형 상업용 멀티모달 대형언어모델(LLM)의 시각성능을 뛰어넘는 공개형 멀티모달 LLM인 '콜라보', '모아이'를 개발했다. KAIST 제공

오픈AI의 GPT-4V, 구글의 '제미나이 프로' 등에 비해 시각지능이 10% 이상 우수한 국산 멀티모달 대형언어모델(LLM)이 선보였다. 기존 상업용 비공개 LLM 모델과 달리 누구나 이용할 수 있도록 개방형으로 만들어 고성능 멀티모달 LLM 대중화를 이끌 것으로 기대된다.

KAIST는 노용만 전기·전자공학부 교수 연구팀이 멀티모달 LLM의 시각 성능을 향상시킨 콜라보(CoLLaVO), 모아이(MoAI) 등 2개 AI 모델을 개발했다고 20일 밝혔다.

멀티모달 대형언어모델은 텍스트뿐 아니라 이미지 데이터 유형까지 처리할 수 있는 AI 모델이다. 오픈AI의 'GPT-4V', 구글 '제미나이-프로' 등 대부분 글로벌 빅테크 기업들이 풍부한 컴퓨팅 자원을 바탕으로 비공개 상업 모델로 개발해 왔다.

연구팀은 모델 크기를 키우거나 고품질의 시각지시 조정 데이터셋을 만들지 않고 멀티모달 LLM의 시각 성능을 높일 수 있는 2가지 AI 모델을 학계에서 처음으로 내놨다.

연구팀이 내놓은 콜라보 모델은 이미지 내의 정보를 배경과 물체 단위로 분할하고, 각각의 배경과 물체에 대한 정보를 멀티모달 LLM에 입력해 직접 넣어주는 '크레용 프롬프트' 방식으로, 비공개형 모델보다 성능이 떨어진 물체에 대한 이미지 이해 능력을 높였다. 또한 학습한 정보를 잃어 버리지 않도록 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터(매개변수)로 학습시키는 '듀얼 큐로라' 방식을 적용해 이미지 내 배경과 물체를 구분하는 능력을 크게 향상시켰다. 콜라보는 멀티모달 모델의 성능을 평가하는 벤치마크에서 오픈AI의 GPT-4V, 구글의 제미나이 프로보다 높은 정확도를 보였다고 연구팀은 설명했다.

모아이는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간 상호작용, 배경·텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적 AI 모델이다. 기존 멀티모달 LLM은 이미지 픽셀 수준에서 자세하고 종합적인 이해가 부족한데, 모아이는 화면분할, 물체검출기, 상황그래프 생성, 글자인식 등 네 가지의 컴퓨터 비전 모델 결과를 모두 인간이 이해할 수 있는 언어로 변환한 뒤 멀티모달 LLM에 입력해 학습시킬 수 있다. 기존 LLM이 부족했던 시각 능력을 대답하기 전에 이미지를 충분히 이해하는 과정을 인간 언어로 정보를 제공함으로써 시각 성능을 크게 높였다.

콜라보 모델은 자연어 처리 분야 최고의 국제 학회(ACL Findings 2024)에 승인을 받았고, 모아이는 컴퓨터 비전 국제 학회(ECCV 2024) 승인 결과를 기다리고 있다.

노용만 KAIST 교수는 "두 AI 모델은 허깅 스페이스에서 선정하는 '화제의 논문'으로 추천됐고, 모든 모델을 공개형 LLM로 출시해 다양한 분야에 활용될 것"이라며 "앞으로 많은 컴퓨팅 자원을 활용하지 않고 효율적이면서 성능 높은 멀티모달 LLM 개발에 기여할 것"이라고 말했다.

한편 이번 연구에는 이병관 KAIST 전기·전자공학부 박사과정이 제1저자로, 박범찬 석박사통합과정과 김채원 박사과정이 공동 저자로 참여했다.

이준기기자 bongchu@dt.co.kr

디지털타임스

IT/과학

오픈AI·구글 넘은 KAIST `멀티모달 AI`