업스테이지, AI의 우리말 자료 부족 문제 해결 나섰다
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI) 분야에서 우리말 데이터 부족 문제를 해결하기 위해 국내 신생기업(스타트업)이 나섰다.
업스테이지는 14일 AI 분야에서 우리말 데이터 부족 문제를 해결하고 우리말로 된 고성능 거대언어모델(LLM) 개발을 위해 '1T 클럽'을 발족한다고 밝혔다.
이 업체가 1T클럽을 만드는 이유는 우리말 LLM을 발전시키려면 우리말 데이터가 절실한데 관련 자료가 부족하고 저작권이 걸려 있어 AI 학습이 쉽지 않기 때문이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
인공지능(AI) 분야에서 우리말 데이터 부족 문제를 해결하기 위해 국내 신생기업(스타트업)이 나섰다.
업스테이지는 14일 AI 분야에서 우리말 데이터 부족 문제를 해결하고 우리말로 된 고성능 거대언어모델(LLM) 개발을 위해 '1T 클럽'을 발족한다고 밝혔다. LLM은 생성형 AI 개발의 모태가 된다. 1T클럽은 문자, 책, 기사, 보고서, 논문 등 다양한 형태의 우리말 자료를 1억 단어 이상 확보하기 위한 협의체다.
이 업체가 1T클럽을 만드는 이유는 우리말 LLM을 발전시키려면 우리말 데이터가 절실한데 관련 자료가 부족하고 저작권이 걸려 있어 AI 학습이 쉽지 않기 때문이다. 오픈AI, 구글, 메타 등 외국 AI업체들이 사용하는 LLM은 외국어 중심이어서 우리말 정보가 부족하다. 오픈AI가 만든 생성형 AI 'GPT-3'는 우리말 데이터가 약 1억 개로, 전체 데이터의 0.02%에 불과하다.
이 업체는 우리말 데이터 확보를 위해 20여개 언론사 및 기업, 학계 등 데이터 제공자들과 긴밀한 협의를 진행 중이다. 또 다양한 AI 관련업체들과 우리말 LLM 발전을 위해 협력할 방침이다.
이를 위해 1T클럽에 참여하는 협력사들에게 데이터 제공량에 비례해 AI 개발을 위한 연결도구(API) 이용료를 할인해 주고 LLM의 API 사업으로 창출되는 수익을 공유할 예정이다. 김성훈 업스테이지 대표는 "LLM은 생성형 인공지능의 핵심 기술"이라며 "1T 클럽을 통해 데이터 제공자들의 권익을 지키고 한국형 LLM을 개발해 국내 많은 기업이 AI발전의 수혜를 볼 수 있도록 하겠다"고 강조했다.
최연진 IT전문기자 wolfpack@hankookilbo.com
Copyright © 한국일보. 무단전재 및 재배포 금지.
- 잼버리의 '잼' 자도 몰랐다... '염불보다 잿밥' 병폐 되풀이
- '미우새' 측, 이상민 전 연인 공개 논란에 "당사자 사전 동의"
- 수영 황선우, 뺑소니 혐의로 경찰 조사..."피한 줄 알았다"
- 우리 밖 20m도 못 가서 사살된 백수의 왕… "민간사육장 관리 강화를"
- 여성 DJ 소다 "일본 공연서 관객들이 성추행...너무 무섭다"
- 내 진로도 못찾았는데...가족 부양해야 한다는 압박감에 괴로워요
- 5년간 수술 실습에 동원됐던 믹스견 '쿵쿵따'가 남긴 것
- 여름철 곰팡이 제거하려고 ‘락스’ 쓰는데 안전할까?
- "공짜로 못 보게 4미터 벽 설치"...일본 불꽃놀이도 '유료화'
- 양조위, 36세 연하 우주소녀 성소와 불륜설... 성소 측은 '반박'