“한국어 데이터 모아주세요”…국내 AI 스타트업, 한국식 ‘LLM’ 생태계 구축 나서
1억 단어 데이터 파트너사와 협력
국내 인공지능(AI) 스타트업 업스테이지가 한국어를 기반으로 한 거대언어모델(LLM)을 개발하기 위해 집단지성을 모은다.
업스테이지는 고성능 LLM에 쓰이는 한국어 데이터 확보를 위해 ‘1T 클럽’(1조 토큰 클럽)을 발족한다고 14일 밝혔다.
클럽은 1억 단어 이상 한국어 데이터에 기여할 수 있는 파트너사로 구성되며, 기업과 학계 등 데이터 제공자 20여곳과 파트너십을 맺기 위해 협의하고 있다. 회사는 확보한 데이터로 한국 문화·정서를 담아낼 수 있는 LLM을 개발해 다양한 분야의 생성 AI 앱에 활용할 계획이다.
한국어 데이터는 한국 LLM 발전에 필수적인 자원이지만, 현재 확보된 양이 많지 않다. 예컨대 대표적인 오픈AI의 GPT-3의 경우도 한국어 데이터 학습량은 약 1억개로 전체 언어에서 차지하는 비중은 0.01697%에 불과하다. 다른 글로벌 빅테크 LLM도 한국어 실력과 정서, 구체적인 지역 정보 등에 취약하다.
업스테이지는 기여한 토큰 수에 비례해 거대언어모델 응용프로그램 인터페이스(API)를 사용할 수 있는 비용을 할인해주고, 사업 수익 일부를 파트너사들에 지급한다. 또 파트너사가 제공하는 데이터는 한글 트레이닝 학습 용도로만 쓰고, 원문을 유출할 수 없도록 자체 ‘탈옥 방지’ 기술도 적용키로 했다.
이를 통해 AI가 데이터를 자동으로 수집·분류·저장하는 ‘크롤링’으로 발생하는 저작권 문제를 해결하고, 데이터 제공자와 모델 제작자 모두가 혜택을 볼 수 있도록 운영하겠다고 회사는 설명했다.
김은성 기자 kes@kyunghyang.com
Copyright © 경향신문. 무단전재 및 재배포 금지.
- 생성형 AI, 폐쇄형 대 개방형 ‘맞불’
- 아프고 계속 커지는 켈로이드 흉터··· 구멍내고 얼리면 더 빨리 치료된다
- “남잔데 숙대 지원했다”···교수님이 재워주는 ‘숙면여대’ 대박 비결은
- [스경X이슈] 반성문 소용無, ‘3아웃’ 박상민도 집유인데 김호중은 실형··· ‘괘씸죄’ 통했다
- ‘해를 품은 달’ 배우 송재림 숨진 채 발견
- 윤 대통령 골프 라운딩 논란…“트럼프 외교 준비” 대 “그 시간에 공부를”
- ‘검찰개혁 선봉’ 박은정, 혁신당 탄핵추진위 사임···왜?
- 한동훈 대표와 가족 명의로 수백건…윤 대통령 부부 비판 글의 정체는?
- “그는 사실상 대통령이 아니다” 1인 시국선언한 장학사…교육청은 “법률 위반 검토”
- 3200억대 가상자산 투자리딩 사기조직 체포… 역대 최대 규모