“한국어 데이터 토큰 1조개 함께 모으자”
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
구글·네이버·카카오 등 빅테크(대형 정보기술 기업)들이 검색과 블로그 등 대규모 서비스를 운영하며 쌓은 데이터를 인공지능 모델 학습 밑재료로 쓰는 것과 달리, 규모가 작은 스타트업은 인공지능 모델을 개발하고 싶어도 양질의 데이터 확보부터가 큰 과제다.
1조 토큰 클럽 조성 프로젝트를 이끄는 박찬준 업스테이지 거대언어모델 선임연구원(사진)은 지난달 23일 한겨레와 인터뷰에서 "빅테크는 자신이 보유한 데이터가 고유의 노하우라고 생각하겠지만 '폐쇄 일변도'로 대응하면 한국의 전체 인공지능 산업 발전이 더뎌진다"며 "애플리케이션 개발 도구(API) 개방을 넘어 학습 데이터까지 공유하는 문화가 자리 잡아야 상생이 가능하다"고 강조했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
“데이터 공유로 상생…수익도 공유”
구글·네이버·카카오 등 빅테크(대형 정보기술 기업)들이 검색과 블로그 등 대규모 서비스를 운영하며 쌓은 데이터를 인공지능 모델 학습 밑재료로 쓰는 것과 달리, 규모가 작은 스타트업은 인공지능 모델을 개발하고 싶어도 양질의 데이터 확보부터가 큰 과제다. 인공지능 챗봇 서비스 ‘아숙업’(AskUp)을 만든 스타트업 ‘업스테이지’(Upstage)가 최근 “저작권 걱정 없이 쓸 수 있는 한국어 텍스트 토큰(말뭉치 데이터) 1조개를 함께 모으자”며 언론사·기업·학계 등에 이른바 ‘1조 토큰 클럽’ 조성을 제안한 이유다.
많은 빅테크가 광범위한 데이터 학습 결과물인 거대언어모델(LLM)은 개방하더라도, 정작 그 모델이 어디에서 어떻게 데이터를 수집해 어떤 과정을 거쳐 학습했는지는 ‘영업 비밀’을 이유로 꽁꽁 숨긴다. 1조 토큰 클럽 조성 프로젝트를 이끄는 박찬준 업스테이지 거대언어모델 선임연구원(사진)은 지난달 23일 한겨레와 인터뷰에서 “빅테크는 자신이 보유한 데이터가 고유의 노하우라고 생각하겠지만 ‘폐쇄 일변도’로 대응하면 한국의 전체 인공지능 산업 발전이 더뎌진다”며 “애플리케이션 개발 도구(API) 개방을 넘어 학습 데이터까지 공유하는 문화가 자리 잡아야 상생이 가능하다”고 강조했다.
박 연구원은 “남의 데이터를 공짜로 가져다 쓰겠다는 게 절대 아니다”며 데이터 기여자에 대한 보상 방법도 두 가지로 제시했다. 업스테이지는 우선 기업·기관들이 각자 필요한 생성형 인공지능 서비스를 만들 수 있도록, 거대언어모델을 애플리케이션 개발 도구(API) 형태로 개방하고 활용 가이드를 제공할 계획이다. 또 기여한 데이터양에 비례해 모델 사용료 일부를 면제할 방침이다.
‘수익 공유 ’도 약속했다 . 예를 들어 회원사들이 제공한 데이터로 만든 인공지능 모델로 업스테이지가 100억원을 벌게 되면 , 그중 절반인 50억원을 1조 토큰 클럽에 일종의 발전 기금 형태로 예치하고 , 이를 회원사들에 기여도에 따라 분배할 방침이다 .
정인선 기자 ren@hani.co.kr
Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지
- 오늘 공교육 멈춤의 날…‘위법 으름장’ 윤 정부가 갈등 키운다
- ‘문 정부 인사’ 자리 지킨 경사연 예산 반토막…“보복성” 뒷말
- 이균용 부인 사들인 부산 맹지 값 ‘지분 쪼개기’ 뒤 20배 넘게 껑충
- ‘달의 남극’ 보여준 인도 찬드라얀 3호…22일 깨어날 수 있을까
- “오염수 방류, ‘고의’로 재앙적 피해”…중단 소송 나선 일 시민들
- 60대 교사 성남 야산서 숨진 채 발견…“범죄 혐의점 없어”
- R&D 늘린다더니, 대통령 한마디에 졸속 삭감…과학계 집단행동 예고
- 수도권 등 시간당 30㎜ 강한 비…남부는 한낮 체감 33도
- “내 아이만 등교하면 어쩌지”…공교육 멈춤의 날 ‘눈치 게임’
- 100년 전 호랑이 담배 먹던 옛이야기가 ‘상엿소리 랩’으로