“오픈AI GPT-4, 주요 4개 AI 모델 중 저작권 침해 최악”

주요 인공지능(AI) 모델 중 챗GPT 개발사 오픈AI의 최신 대규모 언어 모델(LLM) GPT-4가 저작권 보호에 가장 취약하다는 연구 결과가 나왔다.

AI 모델 평가 업체인 패트로너스 AI(Patronus AI)는 6일(현지시각) GPT-4(오픈AI)·클로드 2(앤스로픽)·라마 2(페이스북 모회사 메타)·믹스트랄(미스트랄 AI) 등 주요 4개 LLM의 저작권 침해 정도에 대한 연구 결과를 발표했다.

패트로너스 AI는 길리언 플린의 ‘사라진 그녀’(Gone Girl), 미셸 오바마의 ‘비커밍’(Becoming) 등 인기가 높은 저작권 보호 저서를 대상으로 책의 첫 구절이나 텍스트를 완성해 달라는 100가지 프롬프트를 입력해 이들 AI 모델의 반응을 평가했다.

그 결과 GPT-4가 평균 44%의 저작권 보호를 받는 콘텐츠를 생성해 저작권 보호에 가장 취약한 것으로 나타났다. 믹스트랄과 라마 2가 각각 22%와 10%로 뒤를 이었고, 클로드 2는 8%만 저작권이 있는 콘텐츠를 생성했다.

패트로너스 AI는 “클로드 2는 책의 텍스트 완성을 거부하는 등 저작권이 있는 콘텐츠를 피하면서 저작권 침해에 대해 높은 수준의 주의를 보였다”고 설명했다.

이번 연구 결과는 최근 LLM의 저작권 침해와 관련한 소송이 잇따르고 있는 가운데 나왔다. 지난해 9월 드라마 ‘왕좌의 게임’ 원작자인 조지 R.R. 마틴과 존 그리샴 등 베스트셀러 작가 등은 MS와 오픈AI가 GPT 언어모델을 훈련하는 과정에서 자신들의 창작물을 무단 사용했다면서 집단 소송을 제기한 바 있다. 뉴욕타임스(NYT)도 지난해 12월 자사가 발행한 수백만 건의 기사가 챗GPT를 훈련하는 데 활용됐다며 오픈AI 등을 상대로 소송을 제기했다.

패트로너스 AI는 이번 연구 결과가 AI 개발자들이 저작권이 있는 자료의 무단 사용을 방지하는 메커니즘 개발을 우선시해야 할 필요성을 시사한다고 강조했다. 패트로너스 AI는 연구 결과와 함께 저작권 침해를 탐지하는 AI 도구인 ‘카피라이트캐처’(CopyrightCatcher)를 출시했다. 이 도구는 기업이 LLM을 자신 있게 사용할 수 있도록 지원하는 첫 자동화된 평가·안전 플랫폼이라고 패트로너스 AI는 소개했다.

조선비즈

IT/과학

“오픈AI GPT-4, 주요 4개 AI 모델 중 저작권 침해 최악”