뉴스 데이터 무단 사용 제동···언론계·빅테크 비용이견 좁혀질듯

[데이터 경제 활성화 추진 과제]
가이드라인에 침해 주의사항 수록
학습 데이터 저작권 혼란 최소화
바이오·헬스 등 분야별 제도개선
영상데이터 원본 실증 특례도 시행
정밀지도 데이터 직거래 시장 개설

양청삼 개인정보보호위원회 개인정보정책국장이 15일 서울 세종대로 정부서울청사에서 ‘데이터 경제 활성화 추진과제’를 발표하고 있다. 사진 제공=개인정보보호위원회

[서울경제]

정부가 생성형 인공지능(AI)을 개발하는 기업들이 뉴스 데이터를 무단으로 이용하지 못하도록 사실상 제동을 건 이유는 언론사 콘텐츠가 생성형 AI 기능 개선과 고도화에 가장 빈번히 활용되지만 제대로 보호받지 못하고 있어서다. 최근 네이버 등 빅테크뿐만 아니라 삼성전자 등 대기업도 앞다퉈 대규모언어모델(LLM)을 선보이는 상황에서 향후 발생할 수 있는 학습 데이터 저작권 논란에 따른 혼란을 최소화하겠다는 조치로 풀이된다. 특히 언론계와 빅테크가 AI 학습에 활용되는 뉴스 데이터 저작권 및 비용 문제를 놓고 논의 중인 만큼 정부가 다음 달 내놓을 가이드라인이 양측 간 이견을 좁히는 기준점이 될 수 있다는 전망도 나온다.

정부가 15일 발표한 ‘데이터 경제 활성화 추진 과제’에 따르면 다음 달 공개되는 ‘AI-저작권 가이드라인’은 생성형 AI 학습 과정에서 수집·활용되는 데이터에 대해 정당한 대가를 지불하도록 한다는 내용이 핵심이다. 가이드라인이어서 ‘법적 강제력'을 갖는 것은 아니지만 향후 AI 사업자와 이용자·저작권자 간 다툼이 발생했을 때 판단의 기준점이 될 수 있다. 문화체육관광부 관계자는 이날 정부서울청사에서 열린 브리핑에서 “언론사 콘텐츠도 저작물로 인정받기 때문에 이번 가이드라인에 포함된다”면서 “AI 학습 데이터로 저작물을 활용할 경우 정당한 대가를 지급해야 한다는 방향으로 검토 중”이라고 설명했다. 이어 “향후 AI 사업자들이 저작물을 학습 데이터로 이용할 때 가이드라인을 참고하기를 바란다는 취지”라고 덧붙였다.

지난달 26일 문체부와 한국저작권위원회가 ‘2023 서울 저작권 포럼’에서 일부 공개한 저작권 가이드라인에 따르면 생성형 AI 사용자에게 저작권 등 타인의 권리를 침해하지 않도록 주의를 당부하거나 AI 모델, 학습 데이터 및 이용 조건 확인 등을 요구하는 내용이 담겨 있다. 본지 취재를 종합하면 가이드라인 부록에는 뉴스 등 언론사 콘텐츠가 AI 학습에 활용된 사례로 소개돼 뉴스 데이터도 AI 학습 과정에서 대가 지급이 필요한 저작물에 해당된다는 점이 강조될 예정이다.

생성형 AI 시장이 커지면서 학습 데이터 저작권 논란도 빠르게 확산하고 있다. 공정거래위원회는 네이버 이용 약관이 이용자의 콘텐츠 저작권 등을 침해하는지와 관련해 해당 약관 조항의 불공정 여부를 살펴보고 있다. 특히 생성형 AI 개발뿐 아니라 서비스 개선에 활용된 것으로 알려진 언론사 콘텐츠 저작권 논란은 뜨거운 감자로 급부상했다. 국내 일부 언론사들은 AI가 자사 콘텐츠를 학습에 이용하는 것을 금지한다는 내용의 약관을 신설했고 한국신문협회는 생성형 AI 개발 업체를 대상으로 뉴스 저작권 침해 우려를 전달하기도 했다. 가이드라인이 마련되면 언론 업계와 빅테크 간 저작권 비용 지급 여부와 금액 등과 관련해 이견 차를 좁힐 수 있다는 관측이 제기된다. 일각에서는 빅테크들이 이미 AI 학습을 위해 활용한 언론사 뉴스 데이터에 대한 저작권료 지급 여부도 주요 쟁점이 될 것으로 점친다.

아울러 정부는 AI 분야뿐 아니라 바이오·헬스·마이데이터 등 분야별 데이터 경제 활성화를 위한 제도 개선에도 집중할 계획이다. 우선 이달부터 자율주행차와 이동형 로봇 관련 기업의 자율주행 기술 고도화를 위해 '영상 데이터 원본'을 활용할 수 있는 ‘규제샌드박스 실증 특례’를 시행한다. 자율주행차 기술 경쟁이 치열해진 상황에서 지금처럼 가명·익명 처리된 데이터만을 활용하면 AI 품질 확보가 어렵기 때문이다. 영상 정보 원본을 활용하면 자율주행차 인식 모델의 평균 정밀도가 최대 17.6% 개선돼 기술 고도화에 도움이 된다고 개인정보보호위원회는 설명했다. 개인정보보호위에 따르면 이달 초까지 9개 기업이 규제 샌드박스를 신청했으며 현대자동차와 카카오모빌리티도 신청 의사를 밝혔다. 개인정보보호위 관계자는 “개인 식별 목적으로 활용을 금지하는 등 기업 맞춤형 안전 조치를 전제로 원본을 활용할 수 있도록 할 것”이라고 전했다.

정부 중심에서 민간 주도로 ‘원본·정밀지도 데이터’를 직접 거래할 수 있는 시장도 만든다. 또 금감원이 보유한 보이스피싱 범죄 상황 음성 데이터를 데이터 처리 민간기업에 제공해 범죄 위험성을 경고하는 AI 서비스 애플리케이션(앱) 등이 개발될 수 있도록 할 계획이다. 건강보험 가명 데이터를 적극 개방해 보험사 등 민간기업이 고혈압이나 당뇨 환자의 건강 증진에 대한 요인을 분석하고 검진 결과에 따른 주요 질병 발생 가능성도 공동 연구할 수 있게 된다. 보건복지부 관계자는 “특정 집단이나 국민에게 불이익을 줄 수 있는 연구에는 건강보험 가명 데이터를 제공하지 않을 것”이라며 “건강보험공단으로부터 민간기업이 ‘사전 동의’를 받을 수 있도록 할 것”이라고 말했다.

윤지영 기자 yjy@sedaily.com

IT/과학

뉴스 데이터 무단 사용 제동···언론계·빅테크 비용이견 좁혀질듯