ChatGPT가 불러온 저작권 이슈 해결 어떻게?… 데이터 기반 AI기업 주목

ChatGPT 등 초거대 AI 서비스,WSJ, NYT의 뉴스 저작권 소송에 직면
EU 및 G7에서도 데이터 저작권 침해에 대한 국제적인 규제 방안 논의

전 세계적으로 ChatGPT의 열풍이 매우 거세다. ChatGPT가 보여주는 눈부신 능력에 놀라는 한편, AI가 학습하는 데이터에 대한 저작권 분쟁 또한 여러 곳에서 발생하며 이슈로 떠오르고 있다.

해외에서는 스택오버플로우, 레딧, 트위터 등에서 AI 학습용 데이터 접근에 대해 유료화를 발표했고, 월스트리트저널(WSJ)과 NYT를 비롯해 미국과 캐나다 언론사 2000여 곳이 소속된 뉴스미디어연합(NMA)도 뉴스 기사 데이터를 AI가 학습하고 서비스한 것에 대하여 법적 검토를 한다고 밝혔다.

AI를 학습시키기 위해서는 양질의 데이터가 필수적이다 보니 양질의 데이터를 확보하는데 있어서 이렇게 저작권 문제가 발생되는 것이다. 그럼 어떤 데이터가 양질의 데이터라고 볼 수 있는가?

한신대학교 문철수 교수는 “여러 데이터 중에서도 ‘뉴스’는 초거대 AI 모델 시대에 필수 데이터 중 하나이다. 기본적으로 뉴스는 전문가에 의해, 팩트를 기반으로 정치, 경제, 사회, 문화, 교육, 과학 등 우리 사회 전 분야에 걸쳐 정제된 텍스트, 사진, 이미지, 영상 형태로 작성 되고, 매일 실시간으로 전세계에서 방대한 데이터가 24시간 쉬지 않고 생성되기 때문에 다양한 인공지능 기반 서비스에 활용되고 있다”고 밝혔다.

또한, 초거대 AI 모델에 대한 ‘할루시네이션(hallucination, 환각)’에 대한 논란도 심심찮게 등장하고 있다. 최근 각광받는 초거대 모델의 ‘할루시네이션’ 문제는 오류가 있는 데이터로 학습하거나 학습데이터의 양이 부족해 발생하는 것으로 확률을 기반으로 문장을 생성하기 때문에 사실이 아닌 것을 마치 정답인 것처럼 결과를 보여주는 것이다. 이미 잘못된 결과가 도출된 것을 기술적으로 보정하는 것은 한계가 있기 때문에 원천적으로 양질의 데이터를 활용해 학습시키는 것이 제일 중요해질 수밖에 없다.

이에 대해 문 교수는 “현재 전세계 이용자들이 가장 많이 소비하는 콘텐츠는 뉴스이고, 앞으로도 Google, Bing, 네이버, 다음 등 서비스 플랫폼과 초거대 언어 모델(LLM)을 활용한 다양한 AI 서비스에서 학습 데이터이자 소비되는 핵심 콘텐츠로 활용될 것으로 예상되기 때문에 뉴스의 지적재산권 문제가 중요한 이슈가 될 것으로 본다”고 밝혔다.

결국, 뉴스는 정형화된 텍스트로 정확한 내용이 매일 대량으로 새롭게 생성되는 데이터이므로, 이는 곧 AI 학습을 위한 최적의 조건인 셈이다. 그래서 AI 기업과 뉴스 콘텐츠를 활용한 서비스를 제공하는 입장에서는 뉴스의 지적재산권 문제를 주목할 수 밖에 없다.

또한, 최근 소식에 따르면 ChatGPT 등과 같은 생성형 AI에 대해 EU집행위원회는 세계 최초의 AI 규제 법안을 준비하면서 생성형 AI가 사용하는 자료의 저작권을 모두 공개하도록 하는 내용이 담겨 있고 이번 달 일본에서 개최되는 G7 회의에서도 AI와 같은 최신 기술을 적절하게 활용하기 위한 공통 규제를 내놓기로 합의하는 등 갈수록 AI기업이 사용하는 데이터의 저작권 사항이 더욱 중요해지고 있다.

뉴스 데이터의 저작권과 관련하여 법무법인 신율의 김대일 대표변호사는 “뉴스는 지적재산권 보호를 받는 저작물로서 AI학습 및 서비스 등을 목적으로 온라인에서 무단으로 수집, 활용할 경우 저작권법에 위배될 수 있어 합법적인 유통경로를 통해 이용권을 획득하는 것이 바람직하다”고 말했다.

인터넷뉴스, 방송, 통신, 신문, 잡지 등 수많은 미디어가 실시간으로 생산하는 비정형 데이터인 뉴스를 합법적으로 수집, 가공하여 활용하는 것 또한 쉽지 않은 일이다.

따라서, 이러한 고민을 해결해 줄 수 있는 데이터 기반 AI기업들이 주목받고 있다.

특히, 뉴스 빅데이터 기반 AI 기업 비플라이소프트는 한국언론진흥재단의 공식 저작권 유통대행사로서 국내 언론사의 뉴스 저작권을 합법적으로 유통할 수 있는 기업이다. 한국언론진흥재단은 저작권법에 따른 뉴스저작물 신탁관리기관으로서 국내 주요 언론사의 뉴스저작권을 관리하는 곳이다.

비플라이소프트는 한국언론진흥재단에 저작권을 신탁한 언론사는 물론, 저작권을 신탁하지 않은 주요 언론사 와도 별도 저작권 유통 계약을 체결하고 약 20여년간 뉴스 저작권 유통 사업을 통해 현재 국내 최대 뉴스 빅데이터를 24시간 구축하고 있으며, 합법적으로 유통시킬 수 있는 기업으로 알려져 있다.

국내외 AI기업들이 저작권 문제를 해결한 뉴스 데이터를 확보하고 서비스에 실시간 적용하기 위해서는 현실적으로 국내 언론사들을 개별 접촉하여 유료 계약을 체결하고, 다수의 매체로부터 제공받는 다양한 형태의 뉴스 데이터를 실시간으로 통합, 가공, 정제하여 서비스에 적용하는 방법 밖에는 없다.

이런 상황에서 최근 비플라이소프트는 국내외 AI기업들이 방대한 뉴스 데이터를 실시간으로 자사의 AI서비스에 학습 적용할 수 있는 API 제공 사업 확대를 위해 다수의 언론사, 언론 단체와 논의를 진행하고 있는 것으로 알려져 있다.

비플라이소프트는 이미 2015년부터 국내 대표 AI기업인 코난테크놀로지와 이크레더블 등에 AI 분석 및 학습용 뉴스 데이터를 유료로 공급하고 있는 것으로 알려져 있다.

다수의 관련 전문가들은 양질의 데이터를 합법적으로 확보할 수 있는 지가 곧 AI의 경쟁력이 되는 현 상황에서 합법적인 뉴스 데이터는 AI기업과 언론사 모두에게 새로운 기회가 될 것이고, AI 서비스 기업은 신뢰할 수 있는 양질의 합법적 뉴스 데이터를 통해 AI 서비스 정확도와 경쟁력을 높이고, 언론사에게는 본연의 저작권 훼손 방지와 유통 편리성을 통해 새로운 사업 기회를 제공하여 양쪽 모두에게 공정한 협업과 파트너의 관계를 구축하는 생태계를 만들어 가는 것이 필요해 보인다고 전했다.

비플라이소프트는 이달 10일부터 12일까지 코엑스에서 개최되는 ‘2023 국제인공지능대전(AI EXPO KOREA)’에 참가하여 보도 자료를 몇 초 만에 자동으로 작성하고 요약, 분석하는 “AI 김기자” 정식 버전 출시 발표와 함께 국내외 AI 서비스 기업들을 대상으로 “뉴스 데이터 API” 사업 파트너쉽을 본격적으로 구축할 계획이라고 밝혔다.

전자신문인터넷 서희원 기자 (shw@etnews.com)

이 기사에 대해 어떻게 생각하시나요?

전자신문에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

ChatGPT가 불러온 저작권 이슈 해결 어떻게?… 데이터 기반 AI기업 주목