오픈AI·구글 넘은 KAIST `멀티모달 AI`
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
오픈AI의 GPT-4V, 구글의 '제미나이 프로' 등에 비해 시각지능이 10% 이상 우수한 국산 멀티모달 대형언어모델(LLM)이 선보였다.
KAIST는 노용만 전기·전자공학부 교수 연구팀이 멀티모달 LLM의 시각 성능을 향상시킨 콜라보(CoLLaVO), 모아이(MoAI) 등 2개 AI 모델을 개발했다고 20일 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
노용만 교수팀, 시각성능 향상
GPT4-V보다 정확도 10% 높아
오픈AI의 GPT-4V, 구글의 '제미나이 프로' 등에 비해 시각지능이 10% 이상 우수한 국산 멀티모달 대형언어모델(LLM)이 선보였다. 기존 상업용 비공개 LLM 모델과 달리 누구나 이용할 수 있도록 개방형으로 만들어 고성능 멀티모달 LLM 대중화를 이끌 것으로 기대된다.
KAIST는 노용만 전기·전자공학부 교수 연구팀이 멀티모달 LLM의 시각 성능을 향상시킨 콜라보(CoLLaVO), 모아이(MoAI) 등 2개 AI 모델을 개발했다고 20일 밝혔다.
멀티모달 대형언어모델은 텍스트뿐 아니라 이미지 데이터 유형까지 처리할 수 있는 AI 모델이다. 오픈AI의 'GPT-4V', 구글 '제미나이-프로' 등 대부분 글로벌 빅테크 기업들이 풍부한 컴퓨팅 자원을 바탕으로 비공개 상업 모델로 개발해 왔다.
연구팀은 모델 크기를 키우거나 고품질의 시각지시 조정 데이터셋을 만들지 않고 멀티모달 LLM의 시각 성능을 높일 수 있는 2가지 AI 모델을 학계에서 처음으로 내놨다.
연구팀이 내놓은 콜라보 모델은 이미지 내의 정보를 배경과 물체 단위로 분할하고, 각각의 배경과 물체에 대한 정보를 멀티모달 LLM에 입력해 직접 넣어주는 '크레용 프롬프트' 방식으로, 비공개형 모델보다 성능이 떨어진 물체에 대한 이미지 이해 능력을 높였다. 또한 학습한 정보를 잃어 버리지 않도록 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터(매개변수)로 학습시키는 '듀얼 큐로라' 방식을 적용해 이미지 내 배경과 물체를 구분하는 능력을 크게 향상시켰다. 콜라보는 멀티모달 모델의 성능을 평가하는 벤치마크에서 오픈AI의 GPT-4V, 구글의 제미나이 프로보다 높은 정확도를 보였다고 연구팀은 설명했다.
모아이는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간 상호작용, 배경·텍스트에 대한 이해 등으로부터 상황을 판단하는 인지과학적 AI 모델이다. 기존 멀티모달 LLM은 이미지 픽셀 수준에서 자세하고 종합적인 이해가 부족한데, 모아이는 화면분할, 물체검출기, 상황그래프 생성, 글자인식 등 네 가지의 컴퓨터 비전 모델 결과를 모두 인간이 이해할 수 있는 언어로 변환한 뒤 멀티모달 LLM에 입력해 학습시킬 수 있다. 기존 LLM이 부족했던 시각 능력을 대답하기 전에 이미지를 충분히 이해하는 과정을 인간 언어로 정보를 제공함으로써 시각 성능을 크게 높였다.
콜라보 모델은 자연어 처리 분야 최고의 국제 학회(ACL Findings 2024)에 승인을 받았고, 모아이는 컴퓨터 비전 국제 학회(ECCV 2024) 승인 결과를 기다리고 있다.
노용만 KAIST 교수는 "두 AI 모델은 허깅 스페이스에서 선정하는 '화제의 논문'으로 추천됐고, 모든 모델을 공개형 LLM로 출시해 다양한 분야에 활용될 것"이라며 "앞으로 많은 컴퓨팅 자원을 활용하지 않고 효율적이면서 성능 높은 멀티모달 LLM 개발에 기여할 것"이라고 말했다.
한편 이번 연구에는 이병관 KAIST 전기·전자공학부 박사과정이 제1저자로, 박범찬 석박사통합과정과 김채원 박사과정이 공동 저자로 참여했다.
이준기기자 bongchu@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- 새벽에 `마스터키`로 객실 들어가 中여성 성폭행한 호텔 직원의 최후
- `이대생 성상납 발언` 김준혁, 추가 고발에 단단히 뿔났다…"명예 훼손" 맞고소
- 강남 역삼동 아파트 화재…11개월 남아 연기 흡입 병원 이송
- ‘내연남 파문’ 황보승희 놀라운 근황, 눈물 터질 것 같은 애잔한 사진을…
- "참 메스껍다"…`제주도 도심 대변 추태` 대만언론들 중국 `저격`
- "김영선 좀 해줘라" 尹대통령-명태균 녹취록 공개 파장… 대통령실 "공천 지시 아냐, 그저 좋게
- 생산·소비 `동반 추락`… 설비투자 홀로 8.4% 반등
- `합병 SK이노` 1일 출범…무자원 산유국서 `친환경` 에너지강국 도약 이정표
- "기술혁신이 ESG"...AI로 고령화 해결 나선 제약바이오기업들
- "가계대출 총량규제 맞춰라"… 신규억제 넘어 중도상환 유도하는 은행