AI 저작권 침해 … MS '핀셋 삭제' 기술개발

이상덕 기자(asiris27@mk.co.kr) 2024. 1. 2. 17:21
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

마이크로소프트(MS)가 대규모언어모델(LLM)이 불법 학습한 데이터를 '핀셋'처럼 정확히 골라 삭제할 수 있는 이른바 '언러닝(Unlearning)' 기법을 개발했다.

앞서 뉴욕타임스(NYT)가 오픈AI와 MS를 상대로 수십억 달러 규모 저작권 침해 소송을 제기한 가운데 나온 발표다.

2일 정보기술(IT) 업계에 따르면 MS는 학술 사이트인 아카이브(Arxiv)에 '해리포터는 누구인가: 대규모언어모델(LLM)에서 비학습'이라는 논문을 투고했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

마이크로소프트(MS)가 대규모언어모델(LLM)이 불법 학습한 데이터를 '핀셋'처럼 정확히 골라 삭제할 수 있는 이른바 '언러닝(Unlearning)' 기법을 개발했다. 앞서 뉴욕타임스(NYT)가 오픈AI와 MS를 상대로 수십억 달러 규모 저작권 침해 소송을 제기한 가운데 나온 발표다.

2일 정보기술(IT) 업계에 따르면 MS는 학술 사이트인 아카이브(Arxiv)에 '해리포터는 누구인가: 대규모언어모델(LLM)에서 비학습'이라는 논문을 투고했다. 이번 연구를 주도한 마크 루시노비치 MS 애저 최고기술책임자(CTO)는 "해리포터는 대다수 사람이 줄거리와 등장인물을 알고 있는 콘텐츠"라면서 "생성형 인공지능(AI)이 만든 내용이 실제로 학습된 것인지, 아니면 스스로 창작한 것인지를 판별하고자 해리포터를 소재로 사용했다"고 말했다.

MS는 메타의 '라마2 : 7b 모델(Llama2-7b model)'을 활용했다. 해리포터 콘텐츠를 학습시킨 뒤 해당 데이터만 삭제하는 실험이었다. 이들은 크게 △모델이 해리포터 시리즈의 특징적인 언어 패턴, 인물 이름, 장소 등을 인지하고 분리할 수 있게 하는 과정인 타깃 데이터 식별 △고유 표현을 더 일반적인 단어로 대체하는 고유 표현 대체 △해리포터 데이터를 잊도록 조정하는 모델 미세 조정 과정을 실시했다. MS는 "이번 실험을 통해 LLM이 '해리포터'와 관련된 데이터를 잊으면서도 다른 성능에는 영향을 주지 않는 데 성공했다"고 설명했다.

MS는 이를 '대략적 언러닝(approximate unlearning)'으로 명명했다. 학습한 것을 잊게 할 수 있다는 뜻이다.

한편 NYT는 오픈AI와 MS를 상대로 미국 맨해튼 연방지방법원에 저작권 침해 소송을 제기했다. NYT 신문 기사는 대부분 유료인데 이를 불법 학습했다는 주장이다.

[이상덕 기자]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?