"압도적 성능 GPT-4, 4개 AI 모델 중 저작권 보호 가장 취약"

100가지 프롬프트 입력...평균 44% 저작권 보호 콘텐츠 생산

오픈 AI 최신 LLM(거대언어모델)인 GPT-4가 주요 AI(인공지능) 모델 중 저작권 침해가 가장 심하다는 연구 결과가 나왔다.

AI 모델 평가 업체 패트로너스 AI는 6일(현지시간) GPT-4, 엔트로피의 클로드 2, 메타의 라마 2, 미스트랄 AI의 믹스트랄 등 주요 4개 모델의 저작권 침해 정도를 연구했다고 밝혔다. 이 업체는 길리언 플린의 '사라진 그녀', 미셸 오바마의 '비커밍' 등 인기 있는 책의 첫 구절이나 텍스트를 완성해달라는 100가지 프롬프트를 입력하며 모델 반응을 평가했다.

그 결과 GPT-4가 평균 44%의 저작권 보호를 받는 콘텐츠를 생산했으며 믹스트랄 22%, 라마 10%, 클로드 2 8% 순으로 나타났다.

패트로너스 AI는 "클로드 2는 책의 텍스트를 완성하는 걸 거부하는 등 저작권 침해에 대한 높은 수준의 주의를 보였다"고 설명했다.

작년 9월 인기 드라마 '왕좌의 게임' 원작자인 조지 R.R 마틴과 존 그리샴 등 베스트셀러 작가들이 MS(마이크로소프트)와 오픈AI가 모델 을 학습하는 과정에서 자신들의 창작물을 무단으로 사용했다며 집단으로 소송을 제기한 바 있다. 뉴욕타임스도 작년 12월 수백만 건의 기사가 훈련하는데 활용됐다고 소송을 제기했다.

패트로너스 AI는 "이번 연구 결과는 AI 개발자들이 저작권이 있는 자료의 무단 사용을 방지하는 메커니즘 개발을 우선시해야 할 필요성을 시사한다"면서 기업들이 LLM을 사용할 수 있도록 지원하는 저작권 침해 탐지 AI 도구 '카피라이트캐처'를 출시했다. 이 AI 도구는 기업이 LLM을 사용할 수 있도록 지원하는 플랫폼이다.김영욱기자 wook95@dt.co.kr

디지털타임스

IT/과학

"압도적 성능 GPT-4, 4개 AI 모델 중 저작권 보호 가장 취약"