남의 데이터 잔뜩 쓰는 초거대 AI 학습… ‘도둑 사용’ 시끌

이해인 기자 2023. 7. 12. 03:01
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

미국선 이미 소송전 치열

한국어 맞춤법 검사기를 운영하는 부산의 IT 중소기업 나라인포테크는 최근 “특정 IP(인터넷 접속 주소)에서 한 달간 500만회 이상 검사기를 사용한 것으로 파악됐다. 거대언어모델(LLM) 인공지능(AI) 학습을 위한 목적으로 의심된다”는 공지를 올렸다. 권혁철 부산대 정보컴퓨터공학부 교수가 1991년 개발한 이 맞춤법 검사기는 한컴오피스에 탑재된 국내 대표 맞춤법 검사기이다. 서버를 임차(클라우드)해서 쓰고 있는 나라인포테크는 이상 접속 500만회 때문에 평소보다 2배 가까운 서버 이용료를 냈다. 권 교수는 본지에 “챗GPT 같은 AI 서비스의 맞춤법 교정을 위해 우리 프로그램을 쓴 것으로 추정된다”며 “상업적 용도였다면 정당한 비용을 내야 할 일”이라고 밝혔다.

챗GPT 등장 이후 국내외 주요 테크기업들이 생성AI 개발에 나선 가운데 AI 개발에 활용되는 데이터의 무단 활용을 둘러싼 논란이 확산되고 있다. 초거대 AI를 학습시키기 위해 엄청난 양의 자료를 가져오는 과정에서, 어떤 정보를 어디까지 이용할 수 있는지, 사용료를 어떻게 지불해야하는지에 대한 명확한 규제 또는 가이드라인이 필요하다는 지적이 나온다.

그래픽=김현국
사진=게티이미지뱅크, 그래픽=김현국

◇”데이터 쓰지 마” 세계 곳곳에서 소송 잇따라

앞서 초거대 AI 개발에 먼저 뛰어든 미국에선 이미 AI 개발사를 상대로 한 소송전이 벌어지고 있다. 영국 가디언에 따르면 미국 유명 코미디언이자 작가인 세라 실버먼은 최근 오픈AI와 메타를 상대로 소송을 냈다. 이들이 LLM을 훈련하기 위해 동의 없이 저작권이 있는 자료를 사용했다는 것이다. 세계 최대의 이미지·영상 플랫폼인 미국 게티이미지도 지난 1월 영국의 이미지 생성 기업 스테빌리티AI가 게티 소유 이미지 수백만장을 AI 학습에 사용했다며 지적 재산권 침해 소송을 제기했다.

AI 학습에 쓰였던 뉴스 기사를 제작한 언론사들도 이 소송 대열에 합류할 분위기다. 미국 최대 경제지 월스트리트저널(WSJ)은 오픈AI를 상대로 소송을 검토 중이라고 최근 밝혔다. 챗GPT가 WSJ 기사를 비롯해 로이터·가디언·BBC 등 주요 외신들을 참조했다는 사실이 드러났기 때문이다. 뉴욕타임스 등 북미 2000여 개 언론사가 소속된 ‘뉴스미디어연합’ 측도 “사람이 노력하고 투자해 만든 콘텐츠가 AI 학습에 끊임없이 무단으로 사용되고 있다”며 AI의 뉴스 기사 도용에 대해 문제를 공론화하고 있다. 소셜 미디어 트위터와 북미 최대 커뮤니티 레딧도 이용자들이 올린 게시글들을 AI가 무단으로 가져가 학습에 쓰는 것을 막겠다며 사용료 책정 방침을 밝혔다.

◇국내도 아직 구체적 가이드라인 없어

국내 기업들은 이러한 해외 소송전을 반면교사 삼아 “저작권 문제를 최소화해 데이터를 학습하고 있다”고 주장한다. 현재 네이버는 ‘하이퍼클로바X’, 카카오는 ‘코(Ko)GPT’, SKT는 ‘에이닷’, LG는 ‘엑사원’ 이라는 이름으로 자체 AI를 개발하고 있다. 오는 8월 하이퍼클로바X 공개를 앞둔 네이버는 블로그, 카페, 지식인 등 게시물을 활용해 학습하고 있다고 밝혔다. 네이버 이용 약관에는 ‘여러분이 제공한 소중한 콘텐츠는 인공지능 분야 기술 등의 연구 개발 목적으로 네이버 및 네이버 계열사에서 사용될 수 있다’는 문구가 있는 만큼, 미리 사용자 동의를 받았다는 것이다. 카카오는 계열사인 포털 다음의 게시글을 사용하지 않는다는 입장이다. 카카오 관계자는 “저작권 없이 누구나 사용 가능한 오픈소스 ‘커먼크롤’의 데이터를 활용한다”며 “한국어 데이터는 관련 기관을 통해 구매했다”고 말했다. LG도 “국가 연구 기관의 공개된 데이터를 구매하고 있다”고 밝혔다.

하지만 AI 기술 경쟁이 치열해질수록 데이터 저작권 문제가 심화될 것이라는 우려가 나온다. 박유리 정보통신정책연구원 센터장은 “초거대 AI 모델을 학습할 때 데이터의 60~70%가 외부에서 데이터를 무단으로 긁어오는 크롤링 데이터로 알려져 있다”고 했다. 기업과 기관이 보유한 자체 데이터로는 한계가 있기 때문에, 저작권 회색 지대의 데이터를 기업들이 긁어다 AI 학습에 쓴다는 것이다. 업계 관계자는 “최근 개인정보보호위원회가 초거대 AI 학습 데이터에 대한 원칙을 제시할 예정이라고 밝혔지만, 단순 원칙 제시를 넘어 구체적인 가이드라인이 없다면 한국에서도 소송이 이어질 것”이라고 말했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?