이미지를 텍스트로…카카오 ‘허니비’ 사업모델은?

김현아 2024. 1. 19. 12:47
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

카카오브레인이 이미지를 인식해 텍스트로 답하는 멀티모달 언어모델(MLLM)오픈소스 '허니비'를 19일 공개했다.

또, 정신아 카카오(035720) 대표 내정자는 이날 이종호 과학기술정보통신부 장관이 주최한 '제5차 인공지능 전략대화'에 참여해 "대규모 언어모델(LLM)'코GPT'를 내부에서 열심히 개발중이고, 작년 7월엔 이미지 생성 모델인 '칼로'를 출시하기도 했다"며 "나아가 오늘은 MLLM을 공개했다. 여러분이 조만간 쓸 수 있을 것이라고 생각한다"고 밝혔다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

정신아 카카오 대표 내정자, AI 전략대화서 언급
텍스트로 이미지 만드는 '칼로'와 달리 이미지를 텍스트로
작년 11월 공개한 '카라'와 사촌격
데이터와 이미지 융합 멀티모달로 확장
오픈소스로 깃허브 공개..상업용은 못써
카카오 버티컬 AI서비스에 적용될 듯

[이데일리 김현아 기자]카카오브레인이 이미지를 인식해 텍스트로 답하는 멀티모달 언어모델(MLLM)오픈소스 ‘허니비’를 19일 공개했다. 또, 정신아 카카오(035720) 대표 내정자는 이날 이종호 과학기술정보통신부 장관이 주최한 ‘제5차 인공지능 전략대화’에 참여해 “대규모 언어모델(LLM)‘코GPT’를 내부에서 열심히 개발중이고, 작년 7월엔 이미지 생성 모델인 ‘칼로’를 출시하기도 했다”며 “나아가 오늘은 MLLM을 공개했다. 여러분이 조만간 쓸 수 있을 것이라고 생각한다”고 밝혔다.

정신아 카카오 대표(내정자)가 19일 서울 영등포구 여의도 FKI타워컨퍼런스센터에서 열린 ‘제5차 인공지능 최고위 전략대화’에서 인사를 하고 있다. 사진=뉴시스
‘허니비’ 예시. 이미지 올리면 텍스트로 답해준다. 사진=카카오브레인


이미지와 텍스트가 결합된 ‘허니비’

정 내정자는 “허니비는 이미지와 텍스트가 결합된 것”이라며 “예를 들면 오늘 사진을 아까 찍었는데 왼쪽에서 세번째 기업이 어떤 기업인가요?라고 물으면 거기에 답변해 줄 수 있다. 그래서 좀 더 서비스의 확장성이 기대된다”고 말했다.

실제로 위의 사진처럼 개와 고양이 사진을 올리고 ‘두 동물의 대화를 써줘’라고 하면 ‘허니비’는 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변해 준다.

‘고양이가 눈 속에 누워 있는 강아지 등 위에 올라 있다. 둘이 대화한다면 다음과 같은 대화를 할 지 모른다. 고양이가 “덩치 큰 친구야. 태워줘서 고마워”라고 하면 강아지가 “천만에, 내 친구. 네가 내 등에 있어 좋아”라고 답’하는 식이다.

카카오 멀티모달 언어모델이 처음은 아냐

‘허니비’는 멀티모달 언어모델(MLLM, Multimodal Large Language Model) 이다. 즉 이미지와 명령어(프롬프트)를 입력하면, 텍스트로 답변하는 모델로 텍스트로만 입·출력하는 대규모 언어모델(Large Language Model)에서 확장된 형태라고 할 수 있다.

이미지와 텍스트를 모두 입력할 수 있기에 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 이해하고 답변할 수 있는 능력을 가지게 된 것이다.

그런데 카카오브레인이 개발한 ‘허니비’에는 사촌격인 기술이 있다. 바로 지난해 11월 공개한 ‘카라-CXR(흉부 엑스레이 이미지 넣으면 판독문 생성)’와 관련된 기술이다.

김재인 카카오브레인 부사장은 “허니비는 사실 카라와 기술 기반이 유사한데, 카라가 흉부 엑스레이에 국한된 것이라면, 허니비는 다양하게 일상생활에서 쓸 수 있도록 개발했다”고 전했다.

‘허니비’가 오픈소스인 이유

카카오브레인은 텍스트를 넣으면 이미지(그림)을 그려주는 ‘칼로’를 지난해 7월에 공개했고, 11월에는 ‘카라-CXR’를 공개한데 이어 이번에 ‘허니비’를 공개했다. 그런데 ‘허니비’는 ‘깃허브(Github)’에 공개됐다.

깃허브는 소프트웨어 개발 프로젝트를 위한 소스코드 관리서비스를 제공하는 일종의 원격 저장소로, 오픈소스를 위한 무상 서비스도 제공한다.

왜 ‘허니비’의 소스코드를 공개했을까. 카카오브레인은 “현재 멀티모달 언어모델에 대한 연구는 공개된 모델의 수가 적고, 학습 방법 역시 자세히 공개되지 않아 개발이 어려운 상황”이라며 “멀티모달 언어모델의 발전에 기여하고자 자체 개발한 ‘허니비’의 소스코드를 공개하기로 결정했다”고 밝혔다.

하지만 ‘허니비’를 상업용으로는 쓸 수 없다. 김 부사장은 “허니비는 오픈소스여서 연구목적으로 사용하는 사람들에게 연구용으로 사용할 수 있도록 라이센스를 정의해놨다”면서 “상업용으로는 가져다 쓰는 건 안된다”고 했다.

카카오 버티컬 AI 서비스에 적용될 듯

카카오의 어떤 서비스에 ‘허니비’를 도입할지는 정해지지 않았다. 다만, 허니비가 기존 텍스트 중심의 LLM보다 확장성이 큰 만큼 여러 서비스에 적용할 가능성도 있다.

정신아 내정자는 이날 “AI 서비스의 단가를 좀더 낮추는 관점에서는 버티칼 모델을 개발 중”이라고 했는데, 카카오가 내놓을 특화영역 서비스에 이미지를 텍스트로 바꿔주는 ‘허니비’가 기여할 것으로 보인다.

김현아 (chaos@edaily.co.kr)

Copyright © 이데일리. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?