카카오브레인, 멀티모달 LLM `허니비` 오픈소스로 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
카카오브레인이 자사가 개발한 멀티모달 LLM(대규모언어모델) '허니비(Honeybee)'를 '깃허브'에 오픈소스로 공개했다.
현재 멀티모달 언어모델에 대한 연구는 공개된 모델의 수가 적고 학습방법도 자세히 공개되지 않아 개발이 어려운 상황이다.
이미지와 언어모델을 연결할 수 있는 새로운 모듈을 제안하는 동시에 멀티모달 언어모델 발전에 기여하고자 자체 개발한 '허니비'의 소스코드를 공개하기로 결정했다는 게 카카오브레인의 설명이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
카카오브레인이 자사가 개발한 멀티모달 LLM(대규모언어모델) '허니비(Honeybee)'를 '깃허브'에 오픈소스로 공개했다.
현재 멀티모달 언어모델에 대한 연구는 공개된 모델의 수가 적고 학습방법도 자세히 공개되지 않아 개발이 어려운 상황이다. 이미지와 언어모델을 연결할 수 있는 새로운 모듈을 제안하는 동시에 멀티모달 언어모델 발전에 기여하고자 자체 개발한 '허니비'의 소스코드를 공개하기로 결정했다는 게 카카오브레인의 설명이다. 회사는 향후 효과적인 교육 및 학습 보조 도구로 사용될 것으로 기대한다.
'허니비'는 이미지와 텍스트를 모두 입력할 수 있고, 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 종합적으로 이해해 답변할 수 있다. 카카오브레인에 따르면 'MME', 'MM벤치', '시드-벤치' 등 벤치마크에서 모델이 공개된 타사 멀티모달 LLM들을 제치고 최고 성능을 달성했다. 특히 지각능력과 인지능력을 평가하는 'MME' 벤치마크에서는 2800점 만점 중 1977점을 받았다.
또한 관련 논문 '허니비: 멀티모달 LLM을 위한 로컬리티 강화 프로젝터(Honeybee: Locality-enhanced Projector for Multimodal LLM)'는 지난해 논문 공개 사이트 '아카이브(arXiv)'에 게재된 바 있다. 논문에는 이 기술에 대해 "이미지 데이터를 처리해 딥러닝 모델이 더 효과적으로 학습하고 이해할 수 있도록 돕는 기술"이라며 "시각 프로젝터(Visual projector)가 사전 훈련된 비전 인코더와 LLM을 연결하는 데 중요한 역할을 하며, 이를 통해 시각적 이해를 깊게 하면서 LLM의 능력을 활용할 수 있다"고 설명했다.
김일두 카카오브레인 각자대표는 "허니비 모델의 추론을 가능하게 하는 코드도 깃허브에 공개했고 '허니비'를 활용한 각종 서비스 확장을 고려 중"이라며 "더욱 발전된 AI모델 확보를 위해 끊임없이 연구·개발할 것"이라고 말했다.팽동현기자 dhp@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- 얼굴 때리고 배 걷어차고…학대 반복한 어버지 16세 딸은 용서했다
- 박용진 "검찰정권과 한동훈, 김건희 앞에만 서면 한없이 쪼그라들어"
- 71살 푸틴, 올해도 얼음물에 뛰어들었다
- "애들한텐 대가족이 좋죠"...`한 남자와 다섯 예비맘` 틱톡서 화제 [SNS&]
- 핏대 세운 황교익 “김건희 명품 백 수수, 뭉개고 못 넘어가…대국민 사과밖에”
- 韓 "여야의정 제안 뒤집고 가상자산 뜬금 과세… 민주당 관성적 반대냐"
- 내년 세계성장률 3.2→3.0%… `트럼피즘` 美 0.4%p 상승
- `범현대 3세` 정기선 수석부회장, HD현대 방향성 주도한다
- 내년 6월부터 안전진단 없이 재건축… "기간 3년 단축"
- [트럼프 2기 시동]트럼프 파격 인사… 뉴스앵커 국방장관, 머스크 정부효율위 수장