[단독]생성형 AI 무단 데이터 학습 막힐까…추적 기술 만드는 정부

전세계적으로 생성형 AI(인공지능) 학습 데이터의 저작권 문제가 제기되는 가운데 정부가 저작권 보호 기술 개발에 착수했다. 정부는 생성형 AI 학습 데이터 추적 기술을 개발하는 한편 기사 유사도 판단 기술을 개발할 계획이다.

24일 IT(정보기술) 업계에 따르면 문화체육관광부는 생성형 AI에 학습시킨 저작물에 대한 추적·관리 기술을 2026년 완료 목표로 오는 4월 개발에 들어간다. 생성형 AI가 내놓은 결과물에서 학습 데이터를 추적할 수 있는 기술도 개발한다. 이를 위해 문체부는 지난 12일 과제 공모를 통한 사업자 선정에 나섰다.

아울러 문체부는 생성형 AI가 작성한 기사와 기존 뉴스 기사 간 유사도 판단 기술도 2025년까지 개발한다. '카피킬러' 같은 논문 판단 기술처럼 뉴스 기사의 특징을 분석한 뒤 이를 수치화해서 언론사들이 생성형 AI가 작성한 기사와 기존 자사 기사가 어느 정도로 유사한지 비교해 볼 수 있도록 할 계획이다.

문체부가 이같은 기술 개발에 나선 이유는 생성형 AI 학습 데이터 저작권 문제가 꾸준히 제기되고 있어서다. 생성형 AI는 주로 인터넷에 올라온 정보를 학습하는데 이 정보 자체에는 저작권이 있지만 생성형 AI가 해당 정보의 저작권까지 학습하진 않는다.

생성형 AI 저작권 문제는 특히 뉴스 기사 분야에서 많이 발생한다. 뉴스 기사는 다른 정보보다 상대적으로 객관성이 높아 학습 데이터로서 가치가 높은 편이다. 이에 생성형 AI 개발이 활발한 미국에서는 현재 언론사들이 빅테크 기업들을 상대로 저작권 침해 소송을 벌이고 있다.

최수연 네이버 최고경영자(CEO)가 팀 네이버 콘퍼런스 단23에서 ‘생성형 AI 시대, 모두를 위한 기술 경쟁력’의 주제로 기조연설을 하고 있다./뉴스1

국내에서도 네이버(NAVER)의 생성형 AI '하이퍼클로바X'가 국내 언론사 기사를 무단으로 학습한다는 의혹이 제기되고 있다. 네이버는 콘텐츠 제휴 계약을 맺었다는 입장이지만 한국신문협회는 생성형 AI 학습에 뉴스 기사를 활용하는 것은 제휴 범위를 넘어서는 것이라며 공정거래위원회에 의견서를 제출했다.

업계에 따르면 네이버가 국내 언론사들과 뉴스 기사 사용 계약을 쉽사리 맺지 못하는 것은 하이퍼클로바X가 뉴스 기사를 얼마나 학습하는지 명확히 알 수 없어서다. 생성형 AI가 내놓은 결과물에 뉴스 기사 기여도가 어느 정도 되는지 지금까지 나온 기술로는 판단이 불가능하다.

한국신문협회는 네이버 등 AI 기업들이 국내 언론사와 라이선스 계약을 체결해야 한다는 입장이다. 최근 입장문을 통해 이같이 밝힌 협회는 "AI 기업은 정당한 라이선싱을 통해 고품질 콘텐츠를 안정적으로 공급받을 수 있다. 학습에 사용된 데이터 공개도 의무화할 필요가 있다"고 했다.

네이버 관계자는 "뉴스 기사 무단 학습 논란이 일어 지난해 6월부터 뉴스 기사를 통한 AI 학습을 중단했다"며 "한국신문협회나 여러 현업 단체들의 의견을 청취하고 공식적으로 만나서 논의할 수 있는 자리를 마련하는 등 바람직한 방향으로 나아갈 수 있도록 노력할 계획"이라고 말했다.

이정현 기자 goronie@mt.co.kr

머니투데이

IT/과학

[단독]생성형 AI 무단 데이터 학습 막힐까…추적 기술 만드는 정부