“AI 학습 때도 창작자 보호해야” vs “저작권 풀어줘야 산업 발전”[인사이드&인사이트]

송혜미 경제부 기자 2023. 8. 7. 23:36
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI의 저작권 침해 논란
송혜미 경제부 기자
# 올 6월 네이버웹툰 ‘도전만화’ 코너가 ‘AI’ 글자 위로 빨간색 금지 표시가 된 사진으로 도배됐다. 도전만화는 일반인들이 직접 그린 웹툰을 올릴 수 있는 공간인데, 웹툰 독자들이 이 코너를 통해 인공지능(AI) 웹툰 보이콧 운동을 벌인 것이다. 게시글에는 ‘창작자의 권리를 침해하는 AI 웹툰을 보이콧한다’ 등의 내용이 담겼다. AI를 활용해 만든 웹툰이 기존 작가들의 그림을 무단으로 긁어다 학습한 결과라는 문제 제기였다.

# 작사·작곡가로부터 저작권을 신탁받아 관리하는 한국음악저작권협회(음저협)는 지난해 7월 AI 작곡가 ‘이봄(EvoM)’이 작곡한 곡에는 저작권료를 지급하지 않기로 했다. 저작권법상 저작권은 사람의 창작물에만 인정된다는 게 표면적인 이유였다. 하지만 더 깊은 속내는 이봄을 비롯한 AI 작곡가가 만들어내는 음악에 저작권이 있는 음악들이 학습 재료로 무단 사용됐다는 것이다. 음저협은 AI 저작권 문제에 대응하기 위해 올 3월 태스크포스(TF)를 발족했다.》





수많은 데이터를 학습, 조합해 새로운 창작물을 내놓는 생성형 AI가 발달하면서 이를 둘러싼 저작권이 새로운 쟁점으로 떠오르고 있다. 창작자를 보호하기 위해 타인의 저작물을 AI 학습에 쓰는 것을 막아야 한다는 주장과 AI 산업 발전을 위해 저작권을 면책해줘야 한다는 주장이 엇갈리고 있다. 웹툰, 음악 등 상업용 저작물에서 시작된 논란은 블로그, 카페 게시물처럼 상대적으로 저작권에 대한 인식이 부족한 콘텐츠로까지 번지는 추세다.

● 정부 “AI 학습용 데이터는 저작권 침해 면책”

생성형 AI의 경쟁력은 얼마나 많은 데이터를 학습했는지에 따라 좌우된다. 문제는 AI가 웹에서 가져다 학습하는 데이터가 누군가의 저작물이라는 점이다. 웹에 공개된 방대한 데이터를 활용하는 경우 모든 저작권자에게 개별적으로 이용 동의를 구하는 것은 현실적으로 불가능하다. 구매한 데이터를 가져다 학습하지 않는 한 저작권 침해 논란이 빚어질 수밖에 없다.

현행법에는 AI 학습에 저작물을 긁어 쓰는 행위에 대해 저작권 침해 여부를 판단할 명확한 조항이 없다. AI 업계는 ‘저작물의 공정한 이용’을 담은 저작권법 제35조의 5를 근거로 AI 학습용으로 저작물을 활용해도 된다고 주장한다. 해당 조항은 저작물의 통상적인 이용 방법과 충돌하지 않고 저작자의 정당한 이익을 부당하게 해치지 않는 경우 저작물을 이용할 수 있다고 규정한다.

하지만 AI 학습이 ‘통상적인 이용 방법’에 해당하는지가 불분명하다. ‘저작권자의 정당한 이익을 부당하게 해치지 않는지’ 역시 모호하다. 주무 부처인 문화체육관광부 관계자는 “현행법으로는 타인의 저작물을 활용한 AI 학습이 저작권을 침해한다고 볼 소지가 있다”고 지적했다.

이 때문에 정부는 산업의 발전을 위해 AI 학습을 둘러싼 저작권 리스크를 해소해주겠다며 법 개정을 추진하고 있다. AI 학습을 위한 ‘크롤링’(웹에서 필요한 데이터를 자동으로 수집, 분류해 저장하는 기술)은 저작권 침해로 보지 않도록 법에 명시하겠다는 것이다. 다만 여기엔 저작물에 포함된 사상이나 감정을 향유하지 않고, 적법하게 저작물에 접근해야 한다는 조건이 붙는다. 이 법은 지난해 발의돼 현재 국회에 계류돼 있는 상태다.

● “과도한 저작권 주장이 AI 산업 발목”

정보기술(IT) 기업뿐만 아니라 제조업 등 여러 업계의 기업들이 이 법의 통과 여부에 촉각을 곤두세우고 있다. 챗봇 같은 대고객 서비스에도 AI가 보편적으로 활용되고 있기 때문이다. 세계적으로 초거대 AI 개발 전쟁이 불붙고 있는 상황에서 저작권 족쇄를 풀어 AI 산업의 경쟁력을 강화해야 한다는 게 업계의 주장이다. 한 국내 생성형 AI 업체 관계자는 “사전 학습 단계에서의 AI 학습은 데이터가 유출될 걱정이 없는데도 과도한 저작권 주장이 산업 발전을 가로막고 있다”고 했다.

업계에서는 특히 블로그, 카페 게시글처럼 무료 플랫폼에 공개된 글의 저작권을 푸는 것을 숙원으로 여기고 있다. 공개된 데이터이기 때문에 상대적으로 접근이 쉬운 데다 데이터의 양도 방대하기 때문이다. 네이버 역시 초거대 AI를 개발하면서 자사 블로그, 카페, 지식인 등에 올라온 이용자 콘텐츠를 학습했다.

정부의 한 관계자는 “기업들이 내놓고 얘기하진 않지만 네이버 블로그에 올라온 글들을 긁어다 쓰고 있을 거라고 많이들 예상하고 있다. 네이버 블로그 글을 쉽게 긁어갈 수 있도록 네이버와 인터페이스 개선 문제를 협의해 달라고 조심스럽게 문의하는 경우도 있었다”고 했다.

이런 상황에서 최근 공정거래위원회는 일반 이용자들이 올린 블로그, 카페 게시물 등의 콘텐츠를 자사 AI 개발에 이용할 수 있도록 한 네이버 이용약관의 불공정성 여부를 검토하고 나섰다. AI 학습용으로 쓰겠다는 개별적인 이용 허락이나 경제적인 보상 없이 게시물을 일괄적으로 가져다 쓰게 하는 건 이용자의 저작권을 과도하게 침해할 수 있다는 것이다. 앞으로 내려질 공정위의 판단은 AI 학습용 데이터를 둘러싼 저작권 논란에 하나의 기준점이 될 것이라는 관측이 나온다.

● “학습에 쓰인 데이터 목록부터 공개해야”

창작자들은 저작권법 개정안이 통과되면 AI가 창작 생태계를 붕괴시킬 것이라고 우려하고 있다. 한국신문협회는 이달 2일 생성형 AI의 학습 과정에서 뉴스 저작권 침해가 벌어지지 않도록 개선안을 마련해줄 것을 국회에 촉구했다. AI 학습을 위해 데이터를 수집하는 과정에서 벌어지는 데이터의 복제, 전송 등이 언론사의 저작권을 침해한다는 것이다. 협회는 “생성형 AI 기술 기업은 데이터 활용에 대한 대가를 저작권자에게 지급하도록 보상체계를 마련해야 한다”고 주장했다.

생성형 AI가 학습을 위해 활용한 데이터를 의무적으로 공개하도록 해야 한다는 목소리도 나온다. 방대한 자료를 학습해 창작물을 내놓는 AI의 특성상 결과물을 통해 학습 재료를 유추하기란 불가능에 가깝다. 창작자로선 자신의 저작물이 무단 도용돼 학습에 사용됐어도 알 길이 없다.

음저협 관계자는 “인간의 음악을 재료로 만들어진 AI 음악이 시장에 퍼져 생태계를 무너뜨리고 있다”며 “그런데도 학습 데이터 목록이 공개되지 않기 때문에 증거를 제시하기 어려워 저작권 침해 소송도 못 걸고 있다”고 했다.

정부는 유럽연합(EU), 일본 등에선 AI 학습에 저작권을 면책해주는 규정을 이미 도입했다고 밝혔다. AI 산업 발전을 위해 저작권을 풀어주는 것이 세계적인 추세라는 것이다. 그러나 김혜창 한국저작권위원회 정책본부장은 “해외에서 저작권 면책 조항이 도입된 건 세계적으로 챗GPT 열풍이 불기 전”이라며 “최근에는 이들 나라에서도 창작자의 권리를 보호해야 한다는 목소리가 높아지는 추세”라고 말했다.

최근 사진 판권업체인 ‘게티이미지’는 자사의 이미지를 무단으로 활용했다면서 AI 스타트업 ‘스태빌리티 AI’를 상대로 1조8000억 달러에 달하는 손해배상 소송을 냈다. 게티이미지 측은 AI 학습을 위해 자사 이미지를 활용하는 건 저작물의 ‘공정 이용’에 해당하지 않는다고 주장하고 있다. 텍스트를 입력하면 관련 이미지를 만들어주는 스태빌리티 AI는 앞서 사진작가들에게도 집단 소송을 당한 바 있다.

최승재 세종대 법학부 교수는 “AI 기술이 빠르게 발전하고 인간 창작자들의 피해가 가시화되면서 세계적으로 AI 학습의 저작권 문제를 바라보는 시각도 변하고 있다. AI 산업 발전을 위해 창작자들의 권리를 희생하는 것이 올바른 방향인지 고민이 필요한 시점”이라고 했다.

송혜미 경제부 기자 1am@donga.com

Copyright © 동아일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?