업스테이지, AI의 우리말 자료 부족 문제 해결 나섰다

인공지능(AI) 분야에서 우리말 데이터 부족 문제를 해결하기 위해 국내 신생기업(스타트업)이 나섰다.

업스테이지는 14일 AI 분야에서 우리말 데이터 부족 문제를 해결하고 우리말로 된 고성능 거대언어모델(LLM) 개발을 위해 '1T 클럽'을 발족한다고 밝혔다. LLM은 생성형 AI 개발의 모태가 된다. 1T클럽은 문자, 책, 기사, 보고서, 논문 등 다양한 형태의 우리말 자료를 1억 단어 이상 확보하기 위한 협의체다.

이 업체가 1T클럽을 만드는 이유는 우리말 LLM을 발전시키려면 우리말 데이터가 절실한데 관련 자료가 부족하고 저작권이 걸려 있어 AI 학습이 쉽지 않기 때문이다. 오픈AI, 구글, 메타 등 외국 AI업체들이 사용하는 LLM은 외국어 중심이어서 우리말 정보가 부족하다. 오픈AI가 만든 생성형 AI 'GPT-3'는 우리말 데이터가 약 1억 개로, 전체 데이터의 0.02%에 불과하다.

이 업체는 우리말 데이터 확보를 위해 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 긴밀한 협의를 진행 중이다. 또 다양한 AI 관련업체들과 우리말 LLM 발전을 위해 협력할 방침이다.

이를 위해 1T클럽에 참여하는 협력사들에게 데이터 제공량에 비례해 AI 개발을 위한 연결도구(API) 이용료를 할인해 주고 LLM의 API 사업으로 창출되는 수익을 공유할 예정이다. 김성훈 업스테이지 대표는 "LLM은 생성형 인공지능의 핵심 기술"이라며 "1T 클럽을 통해 데이터 제공자들의 권익을 지키고 한국형 LLM을 개발해 국내 많은 기업이 AI발전의 수혜를 볼 수 있도록 하겠다"고 강조했다.

최연진 IT전문기자 wolfpack@hankookilbo.com

한국일보

IT/과학

업스테이지, AI의 우리말 자료 부족 문제 해결 나섰다