AI 저작권 침해 … MS '핀셋 삭제' 기술개발
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
마이크로소프트(MS)가 대규모언어모델(LLM)이 불법 학습한 데이터를 '핀셋'처럼 정확히 골라 삭제할 수 있는 이른바 '언러닝(Unlearning)' 기법을 개발했다.
앞서 뉴욕타임스(NYT)가 오픈AI와 MS를 상대로 수십억 달러 규모 저작권 침해 소송을 제기한 가운데 나온 발표다.
2일 정보기술(IT) 업계에 따르면 MS는 학술 사이트인 아카이브(Arxiv)에 '해리포터는 누구인가: 대규모언어모델(LLM)에서 비학습'이라는 논문을 투고했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
마이크로소프트(MS)가 대규모언어모델(LLM)이 불법 학습한 데이터를 '핀셋'처럼 정확히 골라 삭제할 수 있는 이른바 '언러닝(Unlearning)' 기법을 개발했다. 앞서 뉴욕타임스(NYT)가 오픈AI와 MS를 상대로 수십억 달러 규모 저작권 침해 소송을 제기한 가운데 나온 발표다.
2일 정보기술(IT) 업계에 따르면 MS는 학술 사이트인 아카이브(Arxiv)에 '해리포터는 누구인가: 대규모언어모델(LLM)에서 비학습'이라는 논문을 투고했다. 이번 연구를 주도한 마크 루시노비치 MS 애저 최고기술책임자(CTO)는 "해리포터는 대다수 사람이 줄거리와 등장인물을 알고 있는 콘텐츠"라면서 "생성형 인공지능(AI)이 만든 내용이 실제로 학습된 것인지, 아니면 스스로 창작한 것인지를 판별하고자 해리포터를 소재로 사용했다"고 말했다.
MS는 메타의 '라마2 : 7b 모델(Llama2-7b model)'을 활용했다. 해리포터 콘텐츠를 학습시킨 뒤 해당 데이터만 삭제하는 실험이었다. 이들은 크게 △모델이 해리포터 시리즈의 특징적인 언어 패턴, 인물 이름, 장소 등을 인지하고 분리할 수 있게 하는 과정인 타깃 데이터 식별 △고유 표현을 더 일반적인 단어로 대체하는 고유 표현 대체 △해리포터 데이터를 잊도록 조정하는 모델 미세 조정 과정을 실시했다. MS는 "이번 실험을 통해 LLM이 '해리포터'와 관련된 데이터를 잊으면서도 다른 성능에는 영향을 주지 않는 데 성공했다"고 설명했다.
MS는 이를 '대략적 언러닝(approximate unlearning)'으로 명명했다. 학습한 것을 잊게 할 수 있다는 뜻이다.
한편 NYT는 오픈AI와 MS를 상대로 미국 맨해튼 연방지방법원에 저작권 침해 소송을 제기했다. NYT 신문 기사는 대부분 유료인데 이를 불법 학습했다는 주장이다.
[이상덕 기자]
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “이젠 전기차가 망하겠네”…2천만원대 하이브리드 SUV, 이 가격엔 넘사벽 [카슐랭] - 매일경제
- 이재명 흉기피습… 지지자 왕관 쓴 중년남 “사인해주세요” 하더니 테러 - 매일경제
- 악성미분양 또 1만가구 돌파…특히 이 지역 아파트 초토화 - 매일경제
- 이재명 피습 현장에 경찰 50여명 배치됐는데…사고 왜 못 막았나 - 매일경제
- 한국 ‘반쪽짜리 선진국’마저 못 될 판…경제강국 필수조건 ‘이것’ 빨간불 - 매일경제
- ‘소녀시대’ 윤아 덕에 난리나더니…2700만명이나 다녀간 이 나라 - 매일경제
- 김정은, 딸 주애와 팔짱끼고 뽀뽀…간부들은 ‘물개박수’ - 매일경제
- “25만원짜리가 이건 아니지”…노량진 이어 속초서도 ‘썩은 대게’ 논란 - 매일경제
- “매출 3조 이유 있었네”...강남부자 사랑방 된 신세계강남 ‘VIP라운지’ 가보니 - 매일경제
- “6월 마이클 챈들러와 붙겠다!” 코너 맥그리거, UFC 복귀 선언 - MK스포츠