업스테이지, AI 한국어 데이터 모으는 ‘1T 클럽’ 발족

1억 단어 이상 기여 가능 협력사로 구성

인공지능(AI) 스타트업 업스테이지가 한국어 데이터를 집약한 거대언어모델(LLM)을 개발하기 위해 집단지성을 모은다.

업스테이지가 고성능 거대언어모델에 쓰이는 한국어 데이터 확보를 위해 ‘1T 클럽’(1조 토큰 클럽)을 발족한다고 14일 밝혔다.

1억 단어 이상 한국어 데이터에 기여할 수 있는 협력사로 구성되며 현재 언론사 및 기업, 학계 등 데이터 제공자 20여 곳과 협력을 위해 협의하고 있다.

회사는 확보한 데이터로 한국 문화·정서를 담아낼 수 있는 거대언어모델을 개발하고 다양한 분야의 생성 인공지능 애플리케이션에 활용한다.

업스테이지는 기여한 토큰 수에 비례해 거대언어모델 응용프로그램 인터페이스(API)를 사용할 수 있는 비용을 할인하고 사업 수익 일부를 협력사들에 지급한다.

협력사들이 제공하는 데이터는 한글 프리트레이닝 학습 용도로만 사용하며, 원문을 유출할 수 없도록 자체 탈옥 방지 기술을 적용한다.

이를 통해 인공지능이 데이터를 자동으로 수집·분류·저장하는 ‘크롤링’으로 발생하는 저작권 문제 등을 해결하고, 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영할 수 있다고 회사는 소개했다.

1T 클럽에 관심 있는 기업·기관은 업스테이지 홈페이지에서 신청하면 된다.

앞서 업스테이지가 자체 개발한 메타 ‘라마-2’ 파인튜닝(미세조정) 거대언어모델은 머신러닝 플랫폼 ‘허깅페이스’에서 운영하는 오픈 거대언어모델(LLM) 리더보드에서 72.3점으로 1위를 차지했다.

지난달엔 매개변수 300억 개를 가진 모델이 허깅페이스 리더보드에서 평균 67점을 얻어, 국내 거대언어모델 가운데 처음으로 1위를 기록했다.

김성훈 업스테이지 대표는 "‘1T 클럽’으로 데이터 제공자들의 권익을 지키고 이를 토대로 한국의 문화·정서를 담아낼 수 있는 거대언어모델을 개발해, 국내 모든 기업이 인공지능 발전의 수혜를 볼 수 있도록 최선을 다하겠다"고 말했다.

이예린 기자

문화일보