AI 저작권 침해 … MS '핀셋 삭제' 기술개발

마이크로소프트(MS)가 대규모언어모델(LLM)이 불법 학습한 데이터를 '핀셋'처럼 정확히 골라 삭제할 수 있는 이른바 '언러닝(Unlearning)' 기법을 개발했다. 앞서 뉴욕타임스(NYT)가 오픈AI와 MS를 상대로 수십억 달러 규모 저작권 침해 소송을 제기한 가운데 나온 발표다.

2일 정보기술(IT) 업계에 따르면 MS는 학술 사이트인 아카이브(Arxiv)에 '해리포터는 누구인가: 대규모언어모델(LLM)에서 비학습'이라는 논문을 투고했다. 이번 연구를 주도한 마크 루시노비치 MS 애저 최고기술책임자(CTO)는 "해리포터는 대다수 사람이 줄거리와 등장인물을 알고 있는 콘텐츠"라면서 "생성형 인공지능(AI)이 만든 내용이 실제로 학습된 것인지, 아니면 스스로 창작한 것인지를 판별하고자 해리포터를 소재로 사용했다"고 말했다.

MS는 메타의 '라마2 : 7b 모델(Llama2-7b model)'을 활용했다. 해리포터 콘텐츠를 학습시킨 뒤 해당 데이터만 삭제하는 실험이었다. 이들은 크게 △모델이 해리포터 시리즈의 특징적인 언어 패턴, 인물 이름, 장소 등을 인지하고 분리할 수 있게 하는 과정인 타깃 데이터 식별 △고유 표현을 더 일반적인 단어로 대체하는 고유 표현 대체 △해리포터 데이터를 잊도록 조정하는 모델 미세 조정 과정을 실시했다. MS는 "이번 실험을 통해 LLM이 '해리포터'와 관련된 데이터를 잊으면서도 다른 성능에는 영향을 주지 않는 데 성공했다"고 설명했다.

MS는 이를 '대략적 언러닝(approximate unlearning)'으로 명명했다. 학습한 것을 잊게 할 수 있다는 뜻이다.

[이상덕 기자]

매일경제

IT/과학

AI 저작권 침해 … MS '핀셋 삭제' 기술개발