‘한국어 특화 AI’ 카나나, 챗GPT 따라잡을 수 있나

조유빈 기자 2025. 5. 1. 12:09
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

텍스트·음성·이미지 등 동시 처리 가능
지역 방언도 인식해 표준어로 변환

(시사저널=조유빈 기자)

이상호 카나나엑스 성과리더가 지난해 10월22일 경기도 용인시 카카오AI캠퍼스에서 열린 '이프카카오 AI 2024' 세션에서 기조연설하고 있다. ⓒ카카오 제공

카카오의 한국어 특화 멀티모달 언어모델 '카나나'의 성능이 공개됐다.

카카오는 1일 공식 테크 블로그를 통해 통합 멀티모달 언어모델 '카나나(Kanana)-o'와 오디오 언어모델 '카나나-a' 성능 및 개발 후기를 공개했다.

카나나-o는 국내 최초로 텍스트, 음성, 이미지 등 다양한 형태의 정보를 동시에 이해하고 처리할 수 있는 인공지능(AI) 모델이다. 텍스트·음성·이미지 중 어떠한 조합으로 질문을 입력하더라도 카나나-o를 통해 처리할 수 있다. 상황에 맞는 텍스트나 자연스러운 음성 입력으로도 응답 생성이 가능하다.

카카오는 서로 다른 모델을 합치는 모델 병합 기술을 기반으로 이미지 처리에 특화된 카나나-v와 오디오 이해·생성에 특화된 카나나-a 모델을 통합해 단기간 내에 효율적으로 카나나-o를 개발했다.

특히 대규모 한국어 데이터셋을 활용해 한국어의 특수한 발화 구조와 억양, 어미변화 등을 정밀하게 반영했다. 이에 따라 카나나-o는 제주도, 경상도 등 지역 방언을 인식하고 이를 표준어로 변환해 자연스러운 음성을 생성할 수 있다.

타 모델과 비교한 카나나-o의 성능 ⓒ카카오 제공

카카오에 따르면, 카나나-o는 한국어 및 영어 벤치마크(성능 검증)에서 글로벌 최고 AI 모델과 유사한 수준을 기록했고, 한국어 벤치마크에서는 높은 우위를 보였다. 특히 감정 인식 능력에서는 한국어와 영어 모두에서 큰 우위를 기록해, 감정까지 이해하고 소통할 수 있는 AI 모델의 가능성을 입증했다고 자평했다.

카카오는 향후 카나나-o를 통해 △다중 턴(Multi-turn) 대화 처리 △Full-duplex(양방향 데이터 동시 송수신 기술) 대응 능력 강화 △부적절한 응답 방지를 위한 안전성 확보 등을 목표로 연구 개발을 지속한다는 계획이다. 이를 통해 다중 음성 대화 환경에서의 사용자 경험을 혁신하고, 실제 대화에 가까운 자연스러운 상호작용을 실현해가는 것을 목표로 하고 있다.

김병학 카카오 카나나 성과 리더는 "독자적인 멀티모달 기술을 바탕으로 자사의 인공지능 기술 경쟁력을 강화하는 한편, 지속적 연구 결과 공유를 통해 국내 AI 생태계 발전에 꾸준히 기여할 계획"이라고 말했다.

Copyright © 시사저널. 무단전재 및 재배포 금지.