"이러다 금값될라"…AI업계, 고품질 데이터 확보 경쟁 '치열'
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI) 학습용 데이터 확보 문제가 전세계적인 이슈로 떠오르고 있다.
오픈AI가 월스트리트저널(WSJ) 소유 기업인 뉴스 코퍼레이션과 5년간 총 2억5000만 달러(한화 약 3400억 원) 규모 콘텐츠 라이선스 계약을 체결한 가운데 국내 AI 기업들도 고품질 데이터를 보유한 출판사 등과 제휴를 활발히하는 모습이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
AI 학습용 데이터 확보 전쟁
국내 AI 기업들, 저작권과 데이터 비용 부담에 고전
셀렉트스타, 로앤컴퍼니 대형 출판사와 제휴
[이데일리 김현아 IT전문기자] 인공지능(AI) 학습용 데이터 확보 문제가 전세계적인 이슈로 떠오르고 있다. 오픈AI가 월스트리트저널(WSJ) 소유 기업인 뉴스 코퍼레이션과 5년간 총 2억5000만 달러(한화 약 3400억 원) 규모 콘텐츠 라이선스 계약을 체결한 가운데 국내 AI 기업들도 고품질 데이터를 보유한 출판사 등과 제휴를 활발히하는 모습이다. 이들은 개인정보보호법과 저작권법을 준수하면서도 데이터를 확보할 수 있는 방안을 적극 모색하고 있다.
이와 함께 데이터 판매업이라는 새로운 비즈니스 모델도 탄생했다.
이에 발맞춰 셀렉트스타는 데이터 보유 기업과 AI 기업을 연결하는 중개 역할을 수행하고 있는데, 지난해 4분기부터 시작한 데이터 라이선스 사업에서 현재까지 약 25억 원의 매출을 기록했다.
김 대표는 “특히 사람이 감수한 도서 데이터는 거대언어모델(LLM) 학습에 매우 중요한 자원으로, 뉴스 데이터나 웹 크롤링 데이터보다 훨씬 높은 품질을 가지고 있다”고 강조했다. 셀렉트스타는 국내 최대 도서 유통사와 협력해 방대한 도서 데이터를 AI 기업에 공급하며, 데이터 판매 시 저작권 문제가 해결된 라이선스 확인서를 기업에 제공해 데이터 저작권 문제를 명확하게 해결하고 있다.
그러나 셀렉트스타나 로앤컴퍼니처럼 대형 출판 업체와 제휴해 데이터를 확보한 기업들은 운이 좋은 편이다. 대부분의 국내 스타트업들은 AI 개발에 있어 저작권 문제와 데이터 비용이 큰 장애물로 작용하고 있다.
구태언 법무법인 린 변호사는 “한국에서는 AI 개발이 더디게 진행되고 있는데, 주된 이유는 데이터 확보의 어려움과 높은 비용”이라고 지적했다. 그는 “미국은 모든 판례와 공공데이터가 공개되어 있어 AI 개발이 상대적으로 용이하지만, 한국에서는 데이터 확보가 매우 어려운 상황”이라며 “법률 AI 개발을 위해 대법원에서 판례를 구매해야 하는데, 한 건당 천 원씩 지불하려면 수백억 원의 비용이 들 수도 있다”고 우려했다.
김현아 (chaos@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.
- [단독]개 사육농가 보상 ‘마리당 30만원’…정부, 3년간 총 4500억 검토
- 국민메신저 '카톡'이 흔들린다…1020세대 "인스타·텔레그램으로"
- “아들아, 아들아…” 일본도 살인 피해자, 가족들 눈물 속 발인
- “누가 해요” 신규 가입 0명…도로 위 명예직은 옛말
- 女레슬링 이한빛, 3일 파리간다…몽골 선수 도핑적발 [파리올림픽]
- 호주 서핑 선수, 욱일기 보드 사용하려다 한국 항의로 철회[파리올림픽]
- 한국도 10월 금리인하론 고개…치솟는 집값 변수
- 정몽규 “축협 회장 ‘국민 욕받이’…난 10점 만점에 8점”
- 임지연 "♥이도현, 존재로 고마워…공개열애 부담? 걸린 걸 어떡해요"[인터뷰]③
- "절대 용서 못해"… 장필순, 1년 전 반려견 사망 사고 울분