[시시비비]K-인공지능과 콘텐츠 '상생'을 위하여

한국어를 챗GPT 보다 6500배 더 많이 학습했다는 토종 생성형 인공지능(AI) 모델인 네이버 '하이퍼클로바X'가 최근 공개됐다. 오픈AI, 구글 등과 한국시장에서 대항할 수 있는 카드라는 점에서 벌써부터 'K-인공지능 산업'의 기대주라는 평가가 나온다.

하이퍼클로바X는 K-인공지능산업 발전을 위해 반드시 성공해야 하는 과제를 안은 것은 분명하다. 하지만 역설적으로 한국어 능력의 부각은 경쟁력을 오히려 떨어뜨리는 아킬레스건이 더욱 노출되는 결과를 가져올 것으로 보인다.

핵심은 저작권이다. 생성형AI의 원리는 학습에 필요한 데이터를 긁어모으는 '텍스트와 데이터 마이닝(TDM)' 과정을 통해 사용자가 원하는 답을 내놓는 것이다. AI 모델 학습을 위해선 데이터를 '복제'하고 '전송'하는 과정을 거치게 된다. 복제와 전송권한은 원제작자가 갖는다. 한국어 학습규모가 6500배 많다는 것은 그만큼 소비자에게 적확한 정보를 제시한다는 뜻이지만 동시에 분석 소스인 데이터의 저작권 충돌 가능성도 덩달아 높아졌다는 의미기도 하다.

뉴스 저작권 문제는 특히 난제다. 주제가 광범위하고 팩트를 무기로 한다는 점에서 신뢰있는 결과물을 원하는 생성형 AI가 가장 선호하는 소스다. 최수연 네이버 대표도 하이퍼클로바X 발표자리에서 "뉴스 콘텐츠가 사실 가장 고품질의 데이터가 맞다"고 말했다.

거대 AI 학습모델이 가동됐지만 저작권 보호를 위한 법적 장치는 전혀 마련돼 있지 않다. 현행법에는 생성형AI의 학습과정에서 발생하는 원 데이터의 저작권 침해를 방지하기 위한 조항이 명확지 않다. 생성형 AI는 뉴스 콘텐츠를 간접적으로 인용해 결과를 내놓는 만큼, 직접 인용하는 기존의 저작권 침해 방식과는 다르다는 견해 때문이다.

하지만 이에 대한 반론도 만만치 않다. 익명을 요구한 IT법 전문가는 "생성형AI의 결과물이 원 데이터인 저작물의 수요를 대체할 뿐 아니라 영리 또는 상업적 목적으로 사용되고 있는 만큼 공정이용에 해당되지 않는다"고 말했다. 국회 문화체육관광위원회도 저작권법 개정안 검토보고서에서 "저작자의 이익을 부당하게 해치지 않는 범위 내에서 공정한 이용이 가능하다고 포괄적으로 규정하고 있을 뿐"이라면서 "데이터 분석이 면책되는지 여부는 불확실하다"고 지적했다.

최근 한국신문협회는 네이버 등 기업과 정치권에 "저작권을 침해해선 안된다"는 의견서를 보냈다. 하지만 정치권과 정부의 움직임을 보면 의견서는 한낱 '종이'에 불과해 보인다. 저작권 보호 강화보다는 오히려 AI산업 활성화를 위해 저작권을 보다 제약해야 한다는 쪽에 무게중심을 두고 있다는 것이다. 문체위에 상정된 이용호 국민의힘 의원의 저작권법 개정안은 개별적 저작재산권 제한 사유에 '추가적인 정보나 가치 생성을 위해 데이터마이닝을 통해 대량의 정보를 분석하는 경우'를 신설하는 내용을 담고 있다. 데이터마이닝에 저작물을 이용할 때 저작권자의 이용허락을 받지 않고도 복제·전송할 수 있게 한다는 뜻이다. 기획재정부는 지난달 AI 학습용 데이터의 저작권 침해 면책 규정이 담긴 '서비스산업 디지털화 전략'을 내놓기도 했다.

물론 저작권법 주무부처인 문화체육관광부가 지난 2020년 '저작권 비전 2030'을 발표하면서 '5세대 이동통신, 인공지능 등 새로운 기술 환경에서의 신산업 활성화를 위하여 저작권 보호·이용의 명확성을 제고한다'는 의지를 밝힌 바 있다. 하지만 이후 3년이 지났지만 별다른 진척은 없는 상황이다. 언론계에선 "정부가 창작물 보호보다는 AI 등 미래 신산업 활성화에만 관심을 두고 있기 때문"이라는 해석이 나왔다.

뉴스의 무단 활용은 결국 생성형 AI에서 가장 경쟁력 있는 콘텐츠의 경쟁력 약화는 불가피하다. 당연히 생성형 AI 산업의 성장을 기대하는 것도 무리다. 그랜드뷰리서치에 따르면 2030년 전세계 생성형AI 시장은 약 142조 원 규모로 성장한다고 한다. K-인공지능 산업의 발전을 위해서라도 뉴스를 무조건 희생할 순 없다.

최일권 디지털편집부장 igchoi@asiae.co.kr

아시아경제

사설칼럼

[시시비비]K-인공지능과 콘텐츠 '상생'을 위하여