[정동칼럼] 챗GPT와 학습데이터 저작권

박경신 고려대 교수·오픈넷 이사 2023. 4. 10. 03:01
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

인터넷은 힘없는 개인들에게 매스커뮤니케이션의 힘과 정보력을 제공하여 정치적 평등과 경제적 혁신에 이바지해왔다. 정보력은 검색이 뒷받침되어야 한다. 많은 정보가 온라인에 존재한다는 것은 각자 필요한 정보를 찾아볼 수 있다는 정보력과 거리가 멀다. 도리어 너무 많은 정보는 정보력에 장애가 되었다. 검색기술은 이 문제를 해결하여 민주주의와 경제적 평등에 이바지했다.

박경신 고려대 교수·오픈넷 이사

정보력 발전의 다음 도약단계로 인공지능(AI)이 등장했다. 현재의 AI는 기계학습(ML) 기반이다. ML은 수많은 양의 데이터를 기계에 학습시켜 기계가 정보를 더욱 정확한 인식을 하도록 돕는 가중치들이 오차함수들을 통해 상호 연관되어 있는 상태로 기계 내에 남긴다. 어린아이가 자신이 본 책, 음악, 그림을 하나도 기억하진 않지만 더 잘 말하고 부르고 그리게 되는 것과 비슷하다고 한다. ML/AI의 핵심가치는 소프트웨어보다는 학습용 데이터의 질적·양적 규모라고 해도 과언이 아니다. 예를 들어 저 유명한 Stable Diffusion도 실행파일 자체는 윈도처럼 누구나 쉽게 개인PC에 장착할 수 있다고 한다.

이와 관련하여 기존 저작물들이 챗GPT 등의 학습데이터로 이용되는 것에 대해 저작권법 논쟁이 불거지고 있다.

현재 저작권이 거론되는 상황은 3가지이다. 첫째 학습데이터를 처음에 전산화하여 보관하는 과정에서 일어나는 복제이다. 최근 국립국어원이 인공지능의 한국어 인식기능을 향상하기 위한 학습용 데이터를 만드는 사업을 저자 및 출판사의 저작권 문제 때문에 중단한 적이 있었다. 반면 미국에서는 Authors’ Guild 대 HathiTrust 판결에서 도서관들이 장서에 대한 정보접근성을 높이기 위해 책을 스캔하여 전산화하여 보관하는 사업에 대해 ‘공정이용’이라고 판시한 바 있다. 도리어 도서검색을 활성화하여 저작권자들에게 도움이 될 수 있다는 취지이다.

두번째는 학습데이터를 기계가 읽는 과정이다. 저작권법은 그야말로 카피라이트 즉 복제 및 복제와 유사한 행위에 대한 독점권을 규율하는 법이다. 우리가 저작권이 있는 책을 읽을 때마다 로열티를 안 내는 이유는 책을 복제하는 것이 아니기 때문이다. 복제, 방송, 공연 등의 복제유사행위는 저작물을 향유할 수 있는 물적 기반을 확대하여 저작물을 소유하고 있지 않은 사람들도 그 저작물을 향유할 수 있게 만든다. 이 행위에 대한 독점권을 저자에게 줌으로써 기창작행위에 대해 보상하고 재창작의 동기를 부여한다는 기획이 가능해진다.

그러나 저작물을 향유하는 행위, 책을 읽거나 그림을 보는 행위에까지 저작권자가 독점권을 갖는다면 문화예술의 창달이라는 목표가 마비된다. 게다가 책을 볼 때마다 로열티를 내야 한다면 아무도 책을 사지 않을 것이며 저자에게의 금전적 동기부여라는 부차적 목표도 훼손된다. 그런데 ML이 저작물들을 읽는 과정은 검색엔진이 웹크롤링을 통해 온라인상의 게시물을 인식하는 과정과 다르지 않다. 챗GPT 내에는 학습데이터의 복사본이 남아 있지 않고 상호 연관된 가중치들만 남아 있어 복제는 발생하지 않는다. 학습과정 자체는 저작권으로부터 자유롭다는 말이다.

혹자는 온라인콘텐츠에 접근하기 위해 클릭하게 되는 유·무료계약의 약관을 통해 학습데이터로의 이용이 통제되어야 한다고 주장하기도 한다. 그러나 우선 저작물이 적법한 계약절차를 통해 한 사람에게라도 공개된 후에는 그 사람이 그 저작물을 자신의 디바이스를 통해 인식할 권리를 통제하기는 어렵다.

세번째 ML로 만든 결과물이 학습데이터와 유사한 내용을 담고 활용되는 단계이다. 이것은 어렵지 않다. ML을 쓰든 아래아한글을 쓰든 책 한 권을 복제하여 배포하면 당연히 저작권 침해가 발생한다. 물론 미드저니 등은 학습데이터를 어떠한 형태로도 ‘암기’하고 있지 않으며 단지 학습을 통해 인간의 창조물과 가장 비슷한 결과물을 만들다 우연하게 학습데이터 자체와 유사한 것을 재창조한다. 미드저니에게는 억울하겠으나 음악가들도 무의식중에 다른 작품과 비슷한 멜로디를 가진 작품을 쓰는 경우 저작권 침해 책임을 진다.

그러나 중요한 것은 저작권 침해는 ‘활용’시점에서 발생한다는 점이다. 즉 미드저니 이미지에 학습데이터가 무변형 상태로 현출되었다는 것만으로는 저작권 침해가 아니다. 복제의 부재, 현출의 우연성을 고려하면 공정이용으로 인정될 것으로 보인다. 이용자가 그 이미지를 복제하여 배포할 때 비로소 저작권 침해가 발생한다.

합리적인 저작권 운용으로 정보력의 평등한 공유가 지속되어야 한다.

박경신 고려대 교수·오픈넷 이사

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?