사진 보여주니 “청계천입니다”···카카오, 경량 멀티모달 모델 오픈소스 공개

최민지 기자 2025. 7. 24. 15:09
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

카카오가 24일 공개한 경량 모델 ‘카나나-1.5-v-3b’에 청계천 사진을 입력하면 “이 사진은 서울의 청계천을 배경으로 하고 있다”고 답변한다. 카카오 제공

카카오가 국내 최고 성능의 경량 멀티모달 언어모델을 24일 오픈소스로 공개했다.

카카오는 24일 개발자 이미지 정보 이해 및 지시 이행 능력을 갖춘 경량 멀티모달 언어모델 ‘카나나-1.5-v-3b’를 개발자 플랫폼 허깅페이스에 공개했다고 밝혔다.

이날 공개된 카나나-1.5-v-3b는 텍스트 외에 이미지 정보도 처리할 수 있는 모델이다. 이용자 질문의 의도를 정확히 파악하고 높은 지시 이행 성능과 뛰어난 한국어·영어 이해 능력을 갖췄다. 경량 모델임에도 오픈AI의 GPT-4o와 견줄 정도라고 카카오는 설명했다.

카카오는 고성능의 대형 모델을 활용해 작은 모델을 학습시키는 ‘지식 증류’ 방식 등을 통해 성능을 극대화했으며, 비슷한 크기의 ‘큐원 2.5’(알리바바), ‘하이퍼클로바 X 시드 비전 3B’(네이버)보다 이미지 이해 등에서 높은 점수를 기록했다고도 밝혔다.

카카오는 이날 ‘MoE’(Mixture of Experts·전문가 혼합) 모델 ‘카나나-1.5-15.7b-a3b’도 함께 오픈소스로 공개했다. MOE란 여러 거대언어모델(LLM)을 한 데 모은 뒤 작업 종류에 따라 특화된 LLM만 선택적으로 활성화하는 기술이다. 효율적인 컴퓨팅 자원 활용과 비용 절감이 강점이다. 올해 초 ‘저비용·고효율’ 모델로 전 세계에 충격을 던진 중국 딥시크가 취한 방식이 MoE다. 카카오는 “고성능 AI 인프라를 저비용으로 구축하고자 하는 기업, 연구·개발자에게 실용적”이라고 설명했다.

카카오는 지난 2월 가장 크기가 큰 플래그십 모델인 ‘카나나 플래그’ 개발을 완료한 데 이어 지난 5월에는 경량 모델 카나나-1.5 4종을 오픈소스로 공개했다. 하반기에는 에이전트형 AI 구현에 필수적인 추론 모델을 선보인다는 계획이다. 카카오는 챗GPT 개발사 오픈AI와 함께 AI 서비스를 개발 중이다.

카카오를 비롯한 국내 정보통신기술(ICT) 기업들은 최근 경쟁적으로 자체 인공지능(AI) 모델을 내놓고 있다. 이날 SK텔레콤은 코딩과 수학 성능이 대폭 향상된 자체 LLM ‘에이닷 엑스 3.1’을 오픈소스로 공개했다. 이 밖에 네이버(하이퍼클로바X 씽크), 업스테이지(솔라 프로 2), NC AI(바르코 비전 2.0) 등 기업이 최근 잇달아 AI 모델을 선보이고 있다. 정부의 ‘독자 AI 파운데이션 모델 프로젝트’에 주관사로 참여하는 기업들이 자사의 기술 경쟁력을 대외적으로 과시하려는 시도로 풀이된다.

최민지 기자 ming@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.