업스테이지, 한글 데이터 위한 '1T 클럽' 발족…고품질 거대 언어 모델 개발

업스테이지는 한국어 데이터 부족 문제를 해결하고, 고성능 거대 언어 모델(LLM) 개발을 통한 대한민국 LLM의 독립을 위해 '1T 클럽'을 발족한다고 14일 밝혔다.

1T 클럽은 '1 Trillion 토큰 클럽'을 줄인 것으로 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 1억 단어 이상의 한국어 데이터를 기여하는 파트너사로 구성된다.

1T 클럽은 한국어 데이터의 부족 문제 해결은 물론, 데이터 제공자와 모델 제작기업이 상생하는 생태계 확립을 통한 국내 LLM의 독립을 위해 고심한 업스테이지의 새로운 도전이다. 업스테이지는 1T클럽을 통해 한국어 데이터를 확보하고 공유함으로써 한국문화 정서를 담아낼 수 있는 고품질의 LLM을 개발한다. 이를 통해 국내 생성AI 다양한 분야의 애플리케이션에 활용, 인공지능의 발전에 기여할 수 있을 것으로 기대하고 있다.

한국어 데이터는 대한민국 LLM 발전에 필수적인 자원이지만, 현재 상당히 부족하고 저작권의 문제에도 직면해있다. 외국어 중심으로 학습된 빅테크의 LLM들은 한국어 실력은 물론 정서나 지역적 정보에 취약해 국내 기업들이 활용할 프라이빗 LLM 발전에 걸림돌이 되고 있다.

업스테이지는 현재 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 파트너십을 위한 긴밀한 협의를 진행 중이다.

업스테이지는 1T 클럽에 참여하는 파트너사에게 데이터 제공량에 비례해 API 사용료를 할인해준다. LLM의 API 사업으로 창출될 수익을 공유하는 등 두가지 방식으로 혜택을 제공할 계획이다.

업스테이지는 제공된 데이터의 보안과 개인정보보호에도 만전을 기할 방침이다. 업스테이지는 파트너사가 제공하는 데이터를 모델의 한글 프리트레이닝(pre-training) 학습 용도로만 사용한다. 원문 추출은 불가능하도록 운용할 계획이다.

김성훈 업스테이지의 대표는 “LLM은 오늘날 생성형 인공지능의 핵심 기술로, 국내 다양한 업계의 기업이 고성능 프라이빗 LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다”며 “1T 클럽을 통해 데이터 제공자의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 수혜를 볼 수 있도록 할 것”이라고 말했다.

손지혜 기자 jh@etnews.com

전자신문

경제

업스테이지, 한글 데이터 위한 '1T 클럽' 발족…고품질 거대 언어 모델 개발