업스테이지, AI의 우리말 자료 부족 문제 해결 나섰다

최연진 2023. 8. 14. 17:48
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 분야에서 우리말 데이터 부족 문제를 해결하기 위해 국내 신생기업(스타트업)이 나섰다.

업스테이지는 14일 AI 분야에서 우리말 데이터 부족 문제를 해결하고 우리말로 된 고성능 거대언어모델(LLM) 개발을 위해 '1T 클럽'을 발족한다고 밝혔다.

이 업체가 1T클럽을 만드는 이유는 우리말 LLM을 발전시키려면 우리말 데이터가 절실한데 관련 자료가 부족하고 저작권이 걸려 있어 AI 학습이 쉽지 않기 때문이다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

인공지능(AI) 분야에서 우리말 데이터 부족 문제를 해결하기 위해 국내 신생기업(스타트업)이 나섰다.

업스테이지는 14일 AI 분야에서 우리말 데이터 부족 문제를 해결하고 우리말로 된 고성능 거대언어모델(LLM) 개발을 위해 '1T 클럽'을 발족한다고 밝혔다. LLM은 생성형 AI 개발의 모태가 된다. 1T클럽은 문자, 책, 기사, 보고서, 논문 등 다양한 형태의 우리말 자료를 1억 단어 이상 확보하기 위한 협의체다.

이 업체가 1T클럽을 만드는 이유는 우리말 LLM을 발전시키려면 우리말 데이터가 절실한데 관련 자료가 부족하고 저작권이 걸려 있어 AI 학습이 쉽지 않기 때문이다. 오픈AI, 구글, 메타 등 외국 AI업체들이 사용하는 LLM은 외국어 중심이어서 우리말 정보가 부족하다. 오픈AI가 만든 생성형 AI 'GPT-3'는 우리말 데이터가 약 1억 개로, 전체 데이터의 0.02%에 불과하다.

김성훈 업스테이지 대표. 업스테이지 제공

이 업체는 우리말 데이터 확보를 위해 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 긴밀한 협의를 진행 중이다. 또 다양한 AI 관련업체들과 우리말 LLM 발전을 위해 협력할 방침이다.

이를 위해 1T클럽에 참여하는 협력사들에게 데이터 제공량에 비례해 AI 개발을 위한 연결도구(API) 이용료를 할인해 주고 LLM의 API 사업으로 창출되는 수익을 공유할 예정이다. 김성훈 업스테이지 대표는 "LLM은 생성형 인공지능의 핵심 기술"이라며 "1T 클럽을 통해 데이터 제공자들의 권익을 지키고 한국형 LLM을 개발해 국내 많은 기업이 AI발전의 수혜를 볼 수 있도록 하겠다"고 강조했다.

최연진 IT전문기자 wolfpack@hankookilbo.com

Copyright © 한국일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?