"텍스트 입력하면 이미지로"…카카오브레인, 멀티모달 언어모델 '허니비' 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
카카오브레인이 자사가 개발한 멀티모달 언어모델 오픈소스 '허니비(Honeybee)'를 오픈소스 개발 공유 플랫폼 '깃허브'에 공개했다고 19일 밝혔다.
카카오브레인은 이미지와 대규모 언어모델을 연결할 수 있는 멀티모달 언어모델(MLLM) 오픈소스 허니비를 공개했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
벤치마크 사이트에서 타 모델 대비 최고 성능 달성
"더욱 발전된 AI 모델 확보 위해 연구·개발 지속할 것"
[더팩트|최문정 기자] 카카오브레인이 자사가 개발한 멀티모달 언어모델 오픈소스 '허니비(Honeybee)'를 오픈소스 개발 공유 플랫폼 '깃허브'에 공개했다고 19일 밝혔다.
카카오브레인은 이미지와 대규모 언어모델을 연결할 수 있는 멀티모달 언어모델(MLLM) 오픈소스 허니비를 공개했다. 현재 멀티모달 언어모델에 대한 연구는 공개된 모델의 수가 적고, 학습 방법 역시 자세히 공개되지 않아 개발이 어려운 상황이다. 이에 카카오브레인은 멀티모달 언어모델의 발전에 기여하고자 자체 개발한 허니비의 소스코드를 공개하기로 결정했다고 밝혔다.
멀티모달 언어모델은 이미지와 명령어(프롬프트)를 입력하면, 텍스트로 답변하는 모델이다. 2022년 11월 공개해 전 세계를 생성형 인공지능(AI) 열풍으로 몰아 넣은 오픈AI의 '챗GPT'처럼 텍스트로만 입·출력하는 대규모 언어모델(LLM)보다 한층 더 확장된 형태다.
멀티모달 언어모델은 이미지와 텍스트를 모두 입력할 수 있기 때문에 이미지에 담긴 장면을 묘사하거나, 이미지와 텍스트가 혼합된 콘텐츠에 대한 질문을 이해하고 답변할 수 있다. 가령, 허니비에 농구 경기 중인 두 명의 선수 이미지를 입력한 뒤, "왼쪽 선수의 우승 횟수는 몇 번이야?" 등의 질문을 영어로 입력하면, 허니비가 두 선수 중 왼쪽에 위치한 선수를 특정해 정보를 탐색하고, 그 결과를 생성해 내는 식이다.
허니비는 MME, MM벤치, SEED-벤치 등의 성능실험(벤치마크)에서도 두각을 나타냈다. 특히 지각 능력과 인지 능력을 평가하는 MME 벤치마크에서는 2800점 만점 중 1977점을 받아 타사 모델 대비 뛰어난 성능을 보였다.
관련 논문인 '허니비: 멀티모달 LLM을 위한 로컬리티 강화 프로젝터'는 지난해 논문 공개 사이트 '아카이브'에 게재됐다. 해당 논문은 허니비에 대해 "이미지 데이터를 처리해 딥러닝 모델이 더욱 효과적으로 학습하고 이해할 수 있도록 돕는 기술"이라며 "시각 프로젝터가 사전 훈련된 비전 인코더와 대규모언어모델을 연결하는 데 중요한 역할을 하며, 이를 통해 시각적 이해를 높이며 LLM의 성능을 활용할 수 있다"고 서술하고 있다.
카카오브레인은 멀티모달 언어모델이라는 허니비의 특성에 따라 이미지를 입력하고 텍스트로 질문하면 답변 생성 및 사용자와의 상호작용이 가능해 향후 효과적인 교육과 학습 보조 도구로 사용될 것으로 전망하고 있다.
김일두 카카오브레인 각자 대표는 "허니비 모델의 추론을 가능하게 하는 코드도 깃허브에 공개했으며, 허니비를 활용한 각종 서비스 확장을 고려 중"이라며 "더욱 발전된 AI 모델 확보를 위해 끊임없이 연구⋅개발할 것"이라고 밝혔다.
munn09@tf.co.kr
발로 뛰는 더팩트는 24시간 여러분의 제보를 기다립니다.
▶카카오톡: '더팩트제보' 검색
▶이메일: jebo@tf.co.kr
▶뉴스 홈페이지: http://talk.tf.co.kr/bbs/report/write
Copyright © 더팩트. 무단전재 및 재배포 금지.
- "사전 양해도 없었다"…한동훈의 김경율 밀어주기에 '시끌'
- 저출생 공약 발표…與 '인구부 신설' vs 野 '주거·현금 지원'
- 드라마·스포츠·연예…쿠팡이 '콘텐츠'에 돈 쓰는 이유 [TF초점]
- 총선 앞두고 '김건희 리스크' 우려…與 일각서 직접 사과 요구도
- 막 내린 김진욱의 시간…'2기 공수처' 나갈 길은
- 출시 1년 오픈페이 여전히 '지지부진'…반쪽짜리 꼬리표 언제 떼나
- 안재홍, 'LTNS'로 고수위 도전…다시 한번 은퇴설 나올까[TF초점]
- 대기실서 도망친 법정구속 피고인…대법 "도주죄 성립"
- 포스코 흔드는 '보이지 않는 손'…KT '경영 공백 사태' 재현?
- 출시 1년 오픈페이 여전히 '지지부진'…반쪽짜리 꼬리표 언제 떼나