"생성형 AI 학습 데이터 저작권 침해 소지"

정보통신정책硏 보고서

생성형 인공지능(AI)의 학습을 위한 데이터 세트(Dataset)가 저작권 침해 이슈에서 벗어나기 어렵다는 지적이 제기됐다.

27일 정보기술(IT)업계 등에 따르면 정보통신정책연구원이 발간한 '생성형 AI와 저작권 현안' 보고서는 "인터넷에 공개된 정보는 이용 허락 조건에 맞지 않게 이용할 경우라면 저작권 침해로부터 자유로울 수 없다"고 밝혔다. 보고서는 "저작권이 없거나 허락된 경우라면 침해로부터 자유로울 수 있기 때문에 가급적 저작권 이슈에서 자유로울 수 있는 데이터를 사용해야 하나, 사실상 이를 확인하는 것은 어려운 작업"이라고 설명했다.

보고서는 "AI 모델을 위해 만들어지는 데이터 세트는 인터넷에 공개된 정보를 크롤링해 제작되고 있다"면서 "개인정보가 포함된 경우에는 개인정보보호법 위반에 해당할 수 있다"고 지적했다. 크롤링은 웹사이트, 하이퍼링크, 데이터, 정보 자원을 자동화된 방법으로 수집·분류·저장하는 활동을 의미한다.

앞서 한국신문협회는 지난 22일 네이버, 카카오, 구글코리아, 마이크로소프트(MS) 등 국내외 대형 IT 기업에 '생성형 AI의 뉴스 저작권 침해 방지를 위한 5대 요구사항'을 전달한 바 있다. 신문협회는 의견서에서 "언론사가 막대한 투자와 수많은 정제 과정을 거쳐 생산한 뉴스 콘텐츠를 생성형 AI 개발 기업이 저작권자의 사전 동의나 학습 데이터의 이용 출처 등을 명기하지 않고 활용하는 등 저작권 침해 행위가 광범위하게 발생해 뉴스 콘텐츠의 가치가 훼손되고 있다"고 밝혔다.

한편 보고서는 AI 기술에 규제적 측면으로 접근하는 것이 경쟁력 약화로 이어질 수 있다는 우려도 제기했다. 보고서는 "기술에 대한 정책 방안은 기본적으로 기술 발전을 저해해선 안 된다"면서 "규제당국은 규제보다 현장 의견을 반영해 제대로 이용할 수 있는 환경을 조성할 수 있도록 최소한의 가이드라인을 제시해야 한다"고 밝혔다.

[황순민 기자]

매일경제

IT/과학

"생성형 AI 학습 데이터 저작권 침해 소지"