카카오브레인, 멀티모달 LLM `허니비` 오픈소스로 공개

카카오브레인이 자사가 개발한 멀티모달 LLM(대규모언어모델) '허니비(Honeybee)'를 '깃허브'에 오픈소스로 공개했다.

현재 멀티모달 언어모델에 대한 연구는 공개된 모델의 수가 적고 학습방법도 자세히 공개되지 않아 개발이 어려운 상황이다. 이미지와 언어모델을 연결할 수 있는 새로운 모듈을 제안하는 동시에 멀티모달 언어모델 발전에 기여하고자 자체 개발한 '허니비'의 소스코드를 공개하기로 결정했다는 게 카카오브레인의 설명이다. 회사는 향후 효과적인 교육 및 학습 보조 도구로 사용될 것으로 기대한다.

'허니비'는 이미지와 텍스트를 모두 입력할 수 있고, 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 종합적으로 이해해 답변할 수 있다. 카카오브레인에 따르면 'MME', 'MM벤치', '시드-벤치' 등 벤치마크에서 모델이 공개된 타사 멀티모달 LLM들을 제치고 최고 성능을 달성했다. 특히 지각능력과 인지능력을 평가하는 'MME' 벤치마크에서는 2800점 만점 중 1977점을 받았다.

또한 관련 논문 '허니비: 멀티모달 LLM을 위한 로컬리티 강화 프로젝터(Honeybee: Locality-enhanced Projector for Multimodal LLM)'는 지난해 논문 공개 사이트 '아카이브(arXiv)'에 게재된 바 있다. 논문에는 이 기술에 대해 "이미지 데이터를 처리해 딥러닝 모델이 더 효과적으로 학습하고 이해할 수 있도록 돕는 기술"이라며 "시각 프로젝터(Visual projector)가 사전 훈련된 비전 인코더와 LLM을 연결하는 데 중요한 역할을 하며, 이를 통해 시각적 이해를 깊게 하면서 LLM의 능력을 활용할 수 있다"고 설명했다.

김일두 카카오브레인 각자대표는 "허니비 모델의 추론을 가능하게 하는 코드도 깃허브에 공개했고 '허니비'를 활용한 각종 서비스 확장을 고려 중"이라며 "더욱 발전된 AI모델 확보를 위해 끊임없이 연구·개발할 것"이라고 말했다.팽동현기자 dhp@dt.co.kr

디지털타임스

IT

카카오브레인, 멀티모달 LLM `허니비` 오픈소스로 공개