KAIST, 'GPT-4V' 뛰어넘는 이미지 분석 대형언어모델 개발
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
국내 연구진이 미국 오픈AI의 멀티모달 대형언어모델인 'GPT-4V'를 뛰어넘는 기술을 개발했다.
한국과학기술원(KAIST)은 전기·전자공학부 노용만 교수 연구팀이 비공개 상업모델인 'GPT-4V'와 구글 '제미나이-프로'(Gemini-Pro)를 뛰어넘는 공개형 멀티모달 대형언어모델 2종을 개발했다고 20일 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(대전=연합뉴스) 박주영 기자 = 국내 연구진이 미국 오픈AI의 멀티모달 대형언어모델인 'GPT-4V'를 뛰어넘는 기술을 개발했다.
한국과학기술원(KAIST)은 전기·전자공학부 노용만 교수 연구팀이 비공개 상업모델인 'GPT-4V'와 구글 '제미나이-프로'(Gemini-Pro)를 뛰어넘는 공개형 멀티모달 대형언어모델 2종을 개발했다고 20일 밝혔다.
멀티모달 대형 언어모델(LMM)은 텍스트뿐만 아니라 이미지까지 분석·처리할 수 있는 대형언어모델이다.
오픈AI는 지난해 텍스트를 기반으로 한 대형언어모델인 '챗GPT'를 넘어 이미지와 음성까지 학습할 수 있는 LMM 'GPT-4V'를 출시했다. 챗GPT와 달리 GPT-4V의 파라미터(AI 모델의 성능을 보여주는 매개변수)는 공개되지 않았다.
연구팀이 개발한 '콜라보'는 기존 컴퓨터 비전 모델을 활용해 시각 성능을 획기적으로 높인 LMM이다.
이미지 정보를 배경과 물체 단위로 분할한 뒤 각 배경과 물체에 대한 정보를 기존 모델에 직접 입력할 수 있는 '크레용 프롬프트'라는 시각적 프롬프트(컴퓨터 신호)를 제안했다.
이어 크레용 프롬프트로 처리한 정보를 사람의 뇌처럼 각각 다른 신경망의 파라미터(매개변수)로 학습하는 방법으로 정보를 잃지 않게 만드는 전략을 세웠다.
이를 통해 이미지 내에서 배경과 물체를 구분하는 일차원적 시각 구분 능력이 크게 향상됐다고 연구팀은 설명했다.
연구팀은 추가로 3개의 컴퓨터 비전 모델을 학습해 시각 성능을 획기적으로 높인 '모아이'도 개발해 출시했다.
노용만 교수는 "연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 '일간 화제의 논문'(Huggingface Daily Papers)으로 추천됐고, SNS를 통해 세계 연구자들에게 알려졌다"며 "모든 모델을 공개형 대형언어모델로 출시했기 때문에 멀티모달 대형언어모델 발전에 기여할 것으로 기대된다"고 말했다.
이병관 박사과정이 제1 저자로 참여한 이번 연구 결과는 자연어 처리(NLP) 분야 국제 학회 'ACL Findings 2024'에 지난 16일 자로 실렸다.
jyoung@yna.co.kr
▶제보는 카톡 okjebo
Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지
- "우리집에 가자"…초등생 유인하려던 50대 '코드0' 발령해 체포 | 연합뉴스
- '마약 자수' 김나정, 필리핀서 귀국 직후 양성반응…경찰 조사(종합) | 연합뉴스
- 영동서 50대 남녀 흉기 찔려 숨져…"살해 뒤 극단선택한 듯"(종합) | 연합뉴스
- '동생살인' 60대, 법정서 부실수사 형사에 돌연 "감사합니다" | 연합뉴스
- '기찻길이 도로인 줄' 타이어 펑크난 채 선로 달린 만취운전자 | 연합뉴스
- [수능] 국어지문 링크에 尹퇴진집회 안내…경찰 "해킹아닌 도메인 구입"(종합2보) | 연합뉴스
- 이영애, '김여사 연관설' 제기 유튜버 화해거부…'끝까지 간다' | 연합뉴스
- [수능] '노이즈' 40번 이상 반복 등장한 국어 지문…"로제 아파트냐"(종합) | 연합뉴스
- 가족 앞에서 헤어진 여친 살해, 34세 서동하 신상 공개 | 연합뉴스
- 등교하던 초등생 머리 박고 도주…'박치기 아저씨' 검거 | 연합뉴스