“생성AI 학습용 데이터, 저작권 침해에서 자유롭기 어려워”

KISDI ‘생성형 인공지능과 저작권 현안’ 보고서

생성형 인공지능(AI) 언어모델을 학습시키기 위한 데이터가 저작권 침해로부터 자유로울 수 없다는 지적이 나왔다.

27일 정보통신정책연구원(KISDI)이 최근 발간한 ‘생성형 인공지능과 저작권 현안’ 보고서는 “인공지능 모델을 위해 만들어지는 데이터셋은 인터넷에 공개된 정보를 크롤링(긁어모으기)해 제작되고 있다”면서, “인터넷에 공개된 정보는 이용 허락 조건에 맞지 않을 경우 저작권 침해로부터 자유로울 수 없고, 개인정보가 포함된 경우에는 개인정보보호법 위반에 해당할 수 있다”고 지적했다.

보고서는 이어 “저작권이 없거나 허락된 경우라면 침해로부터 자유로울 수 있기 때문에 가급적 저작권 이슈에서 자유로울 수 있는 데이터를 사용해야 한다”면서도 “사실상 이를 확인하는 것은 어려운 작업”이라고 짚었다. 예를 들어 구글이 올해 초 인공지능을 활용한 음악 제작도구를 출시하려다가 표절율이 높아 저작권 침해 우려가 제기되자 출시를 취소한 바 있다.

보고서는 빅테크 기업들이 학습 데이터를 공개하지 않는 것도 저작권 문제를 완전히 해결하지 못했기 때문일 것이라고 지적했다. 보고서는 “개인정보 침해물, 저작권 침해물, 경쟁 사업자가 제공하는 정보에서 크롤링한 데이터 등을 기반으로 학습 데이터가 제작됐을 가능성이 높다”면서, “영업비밀을 이유로 하는 것이 아니라면, (공개)하지 못하는 경우가 대부분일 것”이라고 짚었다.

보고서는 학습 데이터가 공개되지 않은 상황에서 저작권 침해 여부를 명확히 따지는 게 현실적으로 불가능하지만, 몇 가지 요소를 바탕으로 추론해볼 수는 있다고 설명했다. 예를 들어 “챗지피티(ChatGPT)를 포함한 생성형 인공지능 모델이 만들어낸 결과물이 학습 데이터를 통째로 복제하는 수준이 반복되는 경우 실질적 유사성을 확인할 수 있다”는 것이다. 보고서는 “특히 미드저니 등 이미지 생성 인공지능이 만들어낸 이미지가 (학습데이터의 것과) 유사한 경우가 많은데, 이는 데이터의 특징이 아닌 일부 학습데이터 자체를 암기해버려 발생하는 현상”이라고 설명했다.

정인선 기자 ren@hani.co.kr

한겨레

IT/과학

“생성AI 학습용 데이터, 저작권 침해에서 자유롭기 어려워”