KAIST, 시각 성능 높인 대형언어모델 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
한국과학기술원(KAIST)은 노용만 전기전자공학부 교수 연구팀이 오픈AI의 GPT-4V 등 초대형 언어모델의 시각 성능을 넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.
노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 개발했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
[이데일리 강민구 기자] 한국과학기술원(KAIST)은 노용만 전기전자공학부 교수 연구팀이 오픈AI의 GPT-4V 등 초대형 언어모델의 시각 성능을 넘는 공개형 멀티모달 대형 언어모델을 개발해 출시했다고 20일 밝혔다.
노용만 교수 연구팀은 단순히 모델의 크기를 키우거나 고품질의 시각적 지시 조정 데이터셋을 만들지 않고 멀티모달 대형언어모델의 시각 성능을 높인 콜라보(CoLLaVO), 모아이(MoAI) 2가지 기술을 개발했다.
연구팀이 개발한 첫 번째 기술인 ‘콜라보(CoLLaVO)’는 현존 공개형 멀티모달 대형언어모델이 비공개형 모델의 성능에 비해 낮은 이유를 이미지 이해 능력이 떨어진다는 것에서 찾았다.
시각적 지시 조정 단계에서 학습한 정보를 잃어버리지 않기 위해 연구팀은 물체 수준 이미지 이해 능력과 시각·언어 업무 처리 능력을 서로 다른 측정지표로 학습해 서로 간 정보를 잃지 않게 만드는 학습 전략인 ‘듀얼 큐로라(Dual QLoRA)’도 제안했다.
두 번째 대형언어모델인 ‘모아이(MoAI)’는 인간이 사물을 판단할 때 물체의 존재, 상태, 물체 간의 상호작용, 배경에 대한 이해, 텍스트에 대한 이해로부터 상황을 판단하는 인지과학적인 요소에 영감을 받아 만들었다.
노용만 교수는 “이번에 개발한 공개형 멀티모달 대형언어모델이 ‘허깅페이스 일간 화제의 논문’에 추천됐고, 각종 SNS를 통해 세계 연구자에게 알려지고 있다”며 “모든 모델을 공개형 대형언어모델로 출시했기 때문에 앞으로 멀티모달 대형언어모델 발전에 기여할 것”이라고 말했다.
한편, 콜라보(CoLLaVO)는 자연어 처리(NLP) 분야 국제 학회 ‘인공지능언어학회(ACL Findings) 2024’에 지난 달 16일자로 학회에 승인받았다. 모아이(MoAI)는 컴퓨터 비전 국제 학회인 ‘유럽 컴퓨터 비전 학회 2024’ 승인을 앞두고 있다.
강민구 (science1@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.
- "이게 무슨 추태냐"...'대구 공무원 치킨집 갑질' 탄식에 홍준표 한마디
- "20년 걸렸다"...한국 아동 성범죄 남성, 에콰도르서 얼굴 공개
- ‘연돈’ 평균매출액 1.5억, 더본 23개 가맹점 중 최하위권 [데이터인사이트]
- “자식 돈에 어디 숟가락을”…박세리父 사건에 손웅정 발언 재조명
- 주5일제 직장인 내년 119일 쉰다…추석 연휴는 일주일
- 고속도로서 후진, 사망사고 낸 운전자…"다른 차는 다 피했다"
- 등 돌린 모친 급습…안방서 일어난 ‘모자 살인사건’ 전말은[그해 오늘]
- "가장 시원한 곳은"…지하철서 '이곳' 주변 앉으면 6도 더 낮다
- 음주 차량에 들이받힌 40대 보행자 사망…30대 운전자 붙잡혀
- 서효림 父 "사위 정명호, 아들처럼 생각 NO…모든 게 다 싫었다"