웹 지식·정보 무차별 흡수 ‘AI 학습 방식’…혁신·위법 ‘충돌’

김은성 기자 2023. 5. 2. 22:04
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

생성형 AI가 학습하는 온라인 데이터, 저작권 문제 돌출
레딧, 자사 데이터 이용료 청구 예고…NYT 등 언론도 대응 검토
EU, ‘저작권 명시’ 입법 추진…통과 땐 저작료 부과의 근거 될 듯
AI 기업 “사람의 학습과 유사, 일일이 저작권 허락 불가능” 항변

미국의 온라인 커뮤니티 레딧은 오는 6월부터 자사의 대화 데이터를 이용하는 인공지능(AI) 기업에 대가를 받겠다고 예고했다. 스티브 허프먼 레딧 최고경영자(CEO)는 “세계에서 가장 큰 회사들에 레딧 데이터를 무료로 줄 필요는 없다”고 말했다.

트위터 CEO인 일론 머스크는 마이크로소프트(MS)가 AI 언어모델 훈련에 트위터 데이터를 불법적으로 사용했다며 소송을 제기하겠다고 밝혔다.

챗GPT 같은 생성형 AI는 인터넷에 있는 방대한 자료를 기반으로 사용자가 입력하는 명령어에 따라 글과 그림, 음악 등을 만들어낸다. 생성형 AI는 거대 언어모델(LLM)을 훈련하기 위해 날것 그대로의 데이터가 필요하다. 트위터나 레딧 같은 소셜미디어의 데이터는 격식 없는 대화 내용이 많아 학습 가치가 높다.

문제는 이 과정에서 AI가 저작권이 있는 자료를 무단으로 쓴다는 지적이 나오는 것이다. 이로 인해 각국에서 콘텐츠 제작자와 AI 기업 사이에 분쟁이 고조되는 양상이다.

유럽연합(EU)은 최근 연말 제정을 목표로 AI가 학습한 콘텐츠의 저작권을 명시하는 입법을 추진하고 있다. 세계 최초로 이 법안이 통과되면 AI 개발에 활용한 저작물 목록이 공개된다. 또 콘텐츠 제작자는 AI 학습에 사용된 저작물에 대한 정당한 대가를 요구할 수 있게 된다.

이에 AI 기업은 데이터 학습 과정을 사람의 독서에 비유하며 건건이 허락받는 일은 현실적으로 불가능하다고 난색을 표하고 있다.

■ “무단 학습은 도둑질” vs “사람이 책으로 공부하는 것”

뉴욕타임스를 비롯한 미국 언론도 AI 훈련에 기사가 얼마나 활용됐는지와 어느 정도 보상을 받아야 하는지를 놓고 법적 대응을 검토 중이다. 월스트리트저널은 “AI의 콘텐츠 무단 사용은 도둑질”이라고 일갈했다.

한국에서는 네이버가 논란의 중심에 섰다. 제휴 언론사의 기사를 언론사와 협의 없이 AI를 개발하는 자회사에 공짜로 넘겨주려고 했다가 논란이 일자 언론사 동의를 받기로 방침을 바꿨다.

예술가들도 AI가 저작권을 희석하는 도구로 악용된다고 반발하고 있다. 독일 예술가 14만여명이 속한 42개 협회와 노동조합은 EU에 보낸 서한을 통해 “(저작권) 보호 대상인 교육용 자료의 무허가 사용과 불투명한 과정, AI 결과물에 의한 대체 가능성 등으로 되돌릴 수 없는 피해가 생기기 전 대처가 필요하다”고 밝혔다.

저작권 갈등이 갈수록 첨예해지는 이유는 AI 기업이 학습 데이터가 무엇인지 공개하지 않는 데다 ‘깜깜이’로 개발한 AI를 이용해 수익화에 나섰기 때문이다. 수많은 사람이 오랜 시간 공들여 만든 콘텐츠를 AI 기업이 공짜로 활용해 구독료와 광고비까지 챙긴다는 비판이다. 한국 개인정보보호위원회도 미국의 오픈AI가 개발한 챗GPT 모델에 한국어 데이터가 어떻게 활용됐는지 등에 대해 조사에 나섰다.

반면 AI 기업은 사람의 학습 과정과 AI의 학습 방식이 유사하다고 주장한다. 사람이 도서관에서 책을 읽고 공부를 하고, 그림을 보며 구도·화풍 등을 익히는 과정과 유사한 개념이라는 것이다. 또 대량의 데이터를 AI에 학습시키는 과정에서 일일이 개별 데이터에 대한 복제와 전송을 저작권자에게 허락받는 게 현실적으로 불가능하다고 항변한다.

국가별로 온도 차는 있지만 대체로 여러 나라가 AI에 대한 규제 필요성에 공감하고 있다. 지난달 30일 일본에서 열린 주요 7개국(G7) 회의에서 각국은 AI 기술 이용에 관해 민주주의와 인권존중 등 5가지 개발 원칙에 합의했다. 생성형 AI는 편리성 때문에 이용이 급속히 확산되고 있지만 개인정보 유출과 저작권 침해 같은 우려가 제기되고 있다. 미국은 AI의 편향성 등 부작용에 대한 제재 조치를 마련키로 했다. 영국도 책임 있는 AI 사용을 위한 백서를 제작하고 이를 이행할 법안을 준비하고 있다.

■ “AI 데이터 활용과 저작권 보호 동시 논의해야”

한국에서는 AI ‘규제’보다 ‘육성’에 방점이 찍힌 상태로 논의가 진행되고 있다. 정부 차원에서 한국판 챗GPT 개발을 위해 초거대 AI 개발용 데이터 분석에 저작물을 이용할 수 있도록 관련 법령 개정을 추진하겠다고 예고했다. 국회에는 ‘선 허용, 후 규제’를 골자로 한 AI법안 통과가 눈앞에 놓여 있다. 이 법안은 AI 산업 기반 조성을 위한 원칙으로 우선 허용과 사후 규제를 명문화하고 있다.

이를 두고 EU와 달리 경쟁력 강화를 위해 규제는 차차 만들어가자는 취지이지만 AI의 부작용을 제대로 거르지 못할 수 있다는 우려가 나온다. 아울러 AI의 학습 관련 데이터 사용을 허가하는 면책규정(정보 분석을 위한 복제·전송 도입)을 추가한 ‘저작권법 개정안’(도정환 더불어민주당 의원 대표발의)도 국회에 계류돼 있다.

업계에서는 생성형 AI가 고도화됨에 따라 데이터의 중요성이 커지고 있는 만큼 시간이 걸리더라도 창작자와 AI 산업이 상생할 수 있는 생태계를 만들어야 한다는 주문이 나온다. 산업 발전을 위해 데이터의 활용도 필요하지만 저작권자의 권리도 함께 보호해야 한다는 취지이다.

최경진 인공지능법학회장(전 개인정보보호법학회장·가천대 법학과 교수)은 “AI 데이터 학습을 위한 저작권 이용은 유연화하되 적절한 보상을 할 수 있는 체계를 마련하는 게 중요하다”며 “질 좋은 데이터가 있어야 AI가 발전할 수 있는 만큼, 발전을 지속하도록 해외 규제 흐름에 맞춰가면서 혁신을 위한 데이터 활용과 정당한 보상이 공존할 수 있게 해야 한다”고 말했다.

김은성 기자 kes@kyunghyang.com

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?