한글 LLM 전용칩 나올까…삼성 '마하 시리즈'에 업계 기대감

김형민 2024. 4. 9. 08:30
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

마하1·마하2 동시 개발…면면은 비공개
아직 한글 완벽 구현 AI 없어
"사용언어 중심 LLM이 흐름…한글 추론칩 가능"
한글 기반 AI로 기업 불편 해소할지 주목

삼성전자가 인공지능(AI) 추론 칩 ‘마하 시리즈(마하1·마하2)’ 개발에 착수한 것으로 알려지며 관련 업계에선 제대로 된 ‘한글 기반 AI’가 나올 것이라는 기대감이 커지고 있다. AI와 거대언어모델(LLM) 개발 흐름이 사용 언어 중심으로 이뤄지는 만큼, 삼성전자가 한글 기반으로 칩을 만들 가능성이 높다고 보는 것이다.

9일 업계에 따르면 마하는 개발 및 투자 방향을 비롯해 사용언어 등 모든 면면이 공개되지 않은 채 반도체 엔지니어 40여명이 투입된 가운데 비밀리에 만들어지고 있는 것으로 전해진다. 업계 관계자는 "사용언어를 중심으로 LLM이 개발되고 있는 점을 감안하면 마하 시리즈는 한글 기반으로 만들어질 공산이 크다"고 말했다.

그간 세계적인 글로벌 기업들이 만들어서 상용화된 AI들은 모두 영어를 기반으로 했는데, 이는 영어가 세계적인 공용어인데다 미국이 AI 개발의 전면에 있어서 가능했다는 뜻이다. 다만 삼성전자 측은 마하 시리즈가 한글 기반으로 만들어질 것인지에 대한 질문에 "현재는 공개하기 힘들다"며 말을 아꼈다.

삼성전자가 마하 시리즈를 한글 기반으로 만들어 내놓는다면 우리 기업의 갈증을 해소해줄 것으로 보인다. 현재 우리 기업이 쓰고 있는 생성형 AI 대부분은 영어를 기반으로 한 것으로 전해진다. 한글 버전으로 사용하기 위해서는 다른 프로그램 등을 연동해서 써야 한다. AI가 한국어를 학습했어도 그 번역과 사용이 완벽하지 않아 의미가 부정확하게 전달되는 등 기업의 불편이 적지 않았다.

지난 2월 방한한 마크 저커버그 메타 최고경영자(CEO)를 만난 우리 AI 스타트업 업스테이지가 ‘라마3’의 한국어 버전 개발을 제안한 일도 있었다. 라마는 메타의 AI 그룹이 개발한 LLM이다. 라마3의 이전 모델인 라마2는 우리 기업 사이에서 한국어 성능이 크게 떨어진다는 혹평을 받았다. 구글이 지난해 5월 선보인 AI 챗봇 서비스 ‘바드’도 출시 때부터 한국어 버전을 내놨지만 정보의 정확도와 신뢰도에선 아직 많이 미흡하다는 평가를 받았다.

마하가 추론 칩으로 개발되고 있는 점은 제대로 된 한글 기반 AI의 탄생에 대한 기대감을 더욱 높인다. 국어학자들의 설명에 따르면 한글은 다른 언어들보다 문법 구조가 복잡하고 표현도 훨씬 다양해 AI 모델이 학습하기 어렵다. 현재 나와 있는 AI들이 쓰는 ‘토큰화 기술’이 한글 학습에 적합하지 않다고 한다. 토큰화는 텍스트 조각을 단어, 문자 등 더 작은 단위로 나눠 익히는 기술이다. 이를 이용해 영어의 알파벳보다 더 다양하고 복잡한 한글의 자음, 모음 등을 완벽히 익히기엔 어려움이 있다. 이에 따라 AI가 한글을 학습하기 위해선 시간과 돈이 적지 않게 필요하다는 게 업계의 중론이다. 반면 추론은 상대적으로 성공 가능성이 높다고 본다. 영어로 된 학습된 정보를 한글로 분석해서 새로운 정보를 생성해 내기만 하면 된다. 추론이 성공하면 향후 한글 학습 방법에도 해결책이 마련될 전망이다.

네이버와 손을 잡은 점도 큰 주목을 받고 있다. 마하는 개발 후 이르면 올 연말 네이버에서 성능을 검증받을 예정이다. 네이버는 한글을 기반으로 한 초대형 인프라를 구축하고 있어 마하가 한글 기반으로 만들어진다면 데뷔 무대로 손색이 없다. 네이버가 다른 생성형 AI들보다 한국어를 6500배 학습한 ‘하이퍼클로바X’를 지난 8월 출시한 후 초대규모 AI 생태계를 구축하려 하는 점도 삼성전자와 뜻이 잘 맞았던 것으로 보인다. 최수연 네이버 대표는 지난달 정기 주주총회에서 "마하1은 아직 상용화라든지 네이버가 어느 정도 규모로 쓸 것인지에 대해서는 기본적으로 미정"이라면서 "프로그래머블반도체(FPGA)를 거치고 칩으로 사용할 수 있을지에 대한 성능 검증 등 안정화 테스트를 올해로 예상한다"고 밝혔다. 최근 동남아시아, 중국, 일본 등에선 우리 영화, 드라마 등이 열풍을 불러일으키며 K-콘텐츠에 대한 수요가 크게 늘면서 한글 기반 AI 개발의 필요성이 점차 커졌다. 마하가 이들 나라에서 주목받을 가능성이 크다는 분석도 있다.

편집자주 - 마하☞ 마하는 AI 추론에 특화된 범용인공지능(AGI) 반도체다. AI의 기능은 학습과 추론 두 가지로 나뉘는데, 마하는 추론에 집중한다. 삼성전자 시스템LSI 사업부가 마하1과 마하2 두 가지 버전을 함께 개발하고 있다.

김형민 기자 khm193@asiae.co.kr

Copyright © 아시아경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?