보고 말하는 ‘오감 AI’ … 카카오 ‘허니비’ 출격

이승주 기자 2024. 1. 19. 12:06
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

국내에도 오감을 통해 보고 듣고 말하는 것과 같은 복합정보처리(멀티모달) 인공지능(AI)이 곧 등장할 전망이다.

카카오 계열사 카카오브레인은 19일 구글과 메타 등 해외 빅테크 기업들의 전유물로 여겨진 멀티모달 언어모델(MLLM) 오픈소스 '허니비'를 '깃허브(분산형 저장소)'에 전격 공개했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

국내 최초… 오픈소스 공개
개발사 활용땐 곧 출시 가능
문자와 이미지를 동시에 학습하고 연산할 수 있는 복합정보처리(멀티모달) 언어모델(MLLM)인 카카오 ‘허니비’ 사용 예시. 개와 고양이가 등장하는 사진을 올린 뒤, 두 동물 간의 대화를 만들어 달라고 하자 인공지능(AI)이 상황에 맞는 대화를 만들어냈다. 카카오브레인 제공

국내에도 오감을 통해 보고 듣고 말하는 것과 같은 복합정보처리(멀티모달) 인공지능(AI)이 곧 등장할 전망이다.

카카오 계열사 카카오브레인은 19일 구글과 메타 등 해외 빅테크 기업들의 전유물로 여겨진 멀티모달 언어모델(MLLM) 오픈소스 ‘허니비’를 ‘깃허브(분산형 저장소)’에 전격 공개했다.

MLLM은 이미지와 명령어를 입력하면 텍스트로 답변하는 모델로, 텍스트로만 입·출력하는 LLM(컴퓨터가 인간의 언어를 이해할 수 있도록 설계된 모델)에서 확장된 형태라 할 수 있다. 이미지와 텍스트를 모두 입력할 수 있어 이미지에 담긴 장면을 묘사하거나 이미지와 텍스트가 혼합된 콘텐츠에 관한 질문을 AI가 이해하고 답변할 수 있다.

카카오브레인 관계자는 “직접 서비스를 제공할 계획은 없지만, 개발사들이 이번에 공개한 허니비를 활용하면 당장 며칠 안에라도 이미지를 인식하고 대화하는 멀티모달 AI 서비스를 만들 수 있을 것”이라고 밝혔다.

카카오브레인에 따르면, 허니비는 이미지와 MLLM을 연결할 수 있는 높은 수준의 오픈소스다. 현재 MLLM에 대한 연구는 공개된 모델의 수가 적고 학습 방법 역시 자세히 공개되지 않아 개발이 어려운 상황이다. 이에 카카오브레인은 MLLM의 발전에 기여하고 관련 생태계를 조성하기 위해 허니비 소스코드를 공개하기로 했다고 설명했다.

정부는 AI 일상화 시대를 맞아 AI 융합 혁신과 대중화에 본격 착수했다. 과학기술정보통신부는 이날 서울 영등포구 여의동 FKI타워(옛 전경련회관)에서 제5차 인공지능 최고위 전략대화를 개최했다. 정부는 우리나라 AI의 글로벌 경쟁력을 확보하기 위해 민간과 함께 △AI 플랫폼 확산 및 생태계 조성 △온디바이스(내장형) AI 확산 △전통산업의 AI 융합 활성화 △AI 기업 양성 및 해외진출 지원 확대 등을 추진하기로 했다.

이날 행사에는 네이버, 카카오 등 정보기술(IT) 기업과 LG, KT 등은 물론 아모레퍼시픽 등 뷰티, 삼성전자 영상디스플레이 등 가전, 두산로보틱스 등 첨단제조 등을 망라한 기업들이 대거 참가했다.

이승주·노성열 기자

Copyright © 문화일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?