업스테이지, `1T클럽` 통해 AI학습용 한글데이터 확보 나서

팽동현 2023. 8. 14. 23:06
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

업스테이지는 한국어 데이터 부족 문제 해결과 한국 LLM(대규모언어모델) 독립을 위해 '1T 클럽'을 발족한다고 14일 밝혔다.

김성훈 업스테이지의 대표는 "LLM은 오늘날 생성형AI의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능의 프라이빗LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다"며 "우리는 '1T 클럽'을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다 할 것"이라고 말했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

업스테이지는 한국어 데이터 부족 문제 해결과 한국 LLM(대규모언어모델) 독립을 위해 '1T 클럽'을 발족한다고 14일 밝혔다.

'1T클럽'은 1조 토큰 이상의 한국어 데이터를 모으기 위한 파트너십으로 텍스트, 책, 기사, 보고서, 논문 등 다양한 형태의 데이터를 수집한다. 업스테이지는 한국어 데이터를 확보·공유함으로써 고품질 LLM을 개발하고 다양한 애플리케이션에 활용될 수 있도록 제공한다는 전략이다. 언론사와 기업 및 학계 등 데이터 제공자들과 파트너십을 협의하고 있고, 다양한 선도기업들과 프라이빗LLM 구축도 협의 중이라는 게 회사의 설명이다.

업스테이지에 따르면 한국 문화·정서와 지역적 정보가 담긴 한국어 데이터의 부족은 국내 기업을 위한 프라이빗LLM 발전에 걸림돌이 되고 있다. 글로벌 기업들의 LLM이나 주요 오픈LLM은 영어 위주다. 오픈AI 'GPT-3'의 경우 한국어 데이터 학습량은 약 1억개로 0.01697%의 비중, 전체 언어 중 28위에 불과해 영어(45조개)에 비해 성능에서 큰 차이가 나게 된다.

업스테이지는 크롤링을 통한 AI 학습으로 발생하는 저작권 이슈 등 부작용을 해결하고 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 '1T클럽'을 운영한다는 방침이다. 참여 파트너사의 기여 토큰 수에 비례해 업스테이지 자체 LLM의 API(응용프로그램인터페이스) 사용료를 할인해주거나, 업스테이지의 LLM API사업으로 창출되는 수익의 일부를 공유하는 등 두 가지 방식으로 혜택을 제공할 예정이다. 제공된 데이터는 모델의 사전학습 용도로만 사용하고. 자체적인 탈옥방지 기술을 통해 원문 유출을 차단한다.

김성훈 업스테이지의 대표는 "LLM은 오늘날 생성형AI의 핵심 기술로, 국내 다양한 업계의 기업들도 고성능의 프라이빗LLM을 자유롭게 활용할 수 있도록 생태계를 만드는 것이 중요하다"며 "우리는 '1T 클럽'을 통해 데이터 제공자들의 권익을 지키고 이를 바탕으로 한국문화 정서를 담아낼 수 있는 LLM을 개발, 국내 모든 기업이 AI발전의 수혜를 볼 수 있도록 최선을 다 할 것"이라고 말했다.팽동현기자 dhp@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?