“한국어 데이터 모아주세요”…국내 AI 스타트업, 한국식 ‘LLM’ 생태계 구축 나서

김은성 기자 2023. 8. 14. 21:47
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

업스테이지 ‘1조 토큰 클럽’ 발족
1억 단어 데이터 파트너사와 협력

국내 인공지능(AI) 스타트업 업스테이지가 한국어를 기반으로 한 거대언어모델(LLM)을 개발하기 위해 집단지성을 모은다.

업스테이지는 고성능 LLM에 쓰이는 한국어 데이터 확보를 위해 ‘1T 클럽’(1조 토큰 클럽)을 발족한다고 14일 밝혔다.

클럽은 1억 단어 이상 한국어 데이터에 기여할 수 있는 파트너사로 구성되며, 기업과 학계 등 데이터 제공자 20여곳과 파트너십을 맺기 위해 협의하고 있다. 회사는 확보한 데이터로 한국 문화·정서를 담아낼 수 있는 LLM을 개발해 다양한 분야의 생성 AI 앱에 활용할 계획이다.

한국어 데이터는 한국 LLM 발전에 필수적인 자원이지만, 현재 확보된 양이 많지 않다. 예컨대 대표적인 오픈AI의 GPT-3의 경우도 한국어 데이터 학습량은 약 1억개로 전체 언어에서 차지하는 비중은 0.01697%에 불과하다. 다른 글로벌 빅테크 LLM도 한국어 실력과 정서, 구체적인 지역 정보 등에 취약하다.

업스테이지는 기여한 토큰 수에 비례해 거대언어모델 응용프로그램 인터페이스(API)를 사용할 수 있는 비용을 할인해주고, 사업 수익 일부를 파트너사들에 지급한다. 또 파트너사가 제공하는 데이터는 한글 트레이닝 학습 용도로만 쓰고, 원문을 유출할 수 없도록 자체 ‘탈옥 방지’ 기술도 적용키로 했다.

이를 통해 AI가 데이터를 자동으로 수집·분류·저장하는 ‘크롤링’으로 발생하는 저작권 문제를 해결하고, 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영하겠다고 회사는 설명했다.

김은성 기자 kes@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?