“주요 4개 AI 모델 중 GPT-4 저작권 침해 최악”

2024. 3. 7. 05:55
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

주요 인공지능(AI) 모델 중 챗GPT 개발사 오픈AI의 최신 대규모 언어 모델(LLM) GPT-4가 저작권 보호에 가장 취약하다는 연구 결과가 나왔다.

AI 모델 평가 업체인 패트로너스 AI(Patronus AI)는 6일(현지시간) GPT-4(오픈AI)·클로드 2(앤스로픽)·라마 2(페이스북 모회사 메타)·믹스트랄(미스트랄 AI) 등 주요 4개 LLM의 저작권 침해 정도에 대한 연구 결과를 발표했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI 모델 평가 업체 ‘패트로너스 AI’ 연구
LLM 저작권 침해 소송 잇따르고 있는 가운데 나와
AI [로이터]

[헤럴드경제=정목희 기자] 주요 인공지능(AI) 모델 중 챗GPT 개발사 오픈AI의 최신 대규모 언어 모델(LLM) GPT-4가 저작권 보호에 가장 취약하다는 연구 결과가 나왔다.

AI 모델 평가 업체인 패트로너스 AI(Patronus AI)는 6일(현지시간) GPT-4(오픈AI)·클로드 2(앤스로픽)·라마 2(페이스북 모회사 메타)·믹스트랄(미스트랄 AI) 등 주요 4개 LLM의 저작권 침해 정도에 대한 연구 결과를 발표했다.

이 업체는 길리언 플린의 ‘사라진 그녀(Gone Girl)’, 미셸 오바마의 ‘비커밍(Becoming)’ 등 인기가 높은 저작권 보호 저서를 대상으로 책의 첫 구절이나 텍스트를 완성해 달라는 100가지 프롬프트를 입력해 이들 AI 모델의 반응을 평가했다.

그 결과 GPT-4가 평균 44%의 저작권 보호를 받는 콘텐츠를 생성해 저작권 보호에 가장 취약한 것으로 나타났다. 믹스트랄과 라마 2가 각각 22%와 10%로 뒤를 이었고, 클로드 2는 8%만 저작권이 있는 콘텐츠를 생성했다.

패트로너스 AI는 “클로드 2는 책의 텍스트 완성을 거부하는 등 저작권이 있는 콘텐츠를 피하면서 저작권 침해에 대해 높은 수준의 주의를 보였다”고 설명했다.

이 업체 공동창립자인 레베카 첸 최고기술책임자(CTO)는 “평가 대상이 된 모든 AI 모델에서 저작권이 있는 콘텐츠를 발견했다”며 “놀라운 것은 가장 많이 이용되는 GPT-4에서 비율이 가장 높다는 사실”이라고 지적했다.

이번 연구 결과는 최근 LLM의 저작권 침해와 관련한 소송이 잇따르고 있는 가운데 나왔다. 지난해 9월 드라마 ‘왕좌의 게임’ 원작자인 조지 R.R. 마틴과 존 그리샴 등 베스트셀러 작가 등은 MS와 오픈AI가 GPT 언어모델을 훈련하는 과정에서 자신들의 창작물을 무단 사용했다면서 집단 소송을 제기했다.

뉴욕타임스(NYT)도 지난해 12월 자사가 발행한 수백만 건의 기사가 챗GPT를 훈련하는 데 활용됐다며 오픈AI 등을 상대로 소송을 제기했다.

이번 연구 결과는 AI 개발자들이 저작권이 있는 자료의 무단 사용을 방지하는 메커니즘 개발을 우선시해야 할 필요성을 시사한다고 이 업체는 강조했다.

이에 연구 결과와 함께 저작권 침해를 탐지하는 AI 도구인 ‘카피라이트캐처(CopyrightCatcher)’를 출시했다. 이 도구는 기업이 LLM을 자신 있게 사용할 수 있도록 지원하는 첫 자동화된 평가·안전 플랫폼이라고 패트로너스 AI는 소개했다.

mokiya@heraldcorp.com

Copyright © 헤럴드경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?