챗GPT 판별 위한 '워터마크'…텍스트에 어떻게 넣을까
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
LLM(초거대 언어모델) 연구가 발전하면서 챗GPT 등 생성형 AI 작성 여부를 판별할 수 있는 '워터마크'를 텍스트 콘텐츠에도 적용할 수 있을 전망이다.
2일 업계에 따르면 구글·MS(마이크로소프트)·메타(구 페이스북)·아마존·오픈AI 등 미국의 7개 빅테크 기업이 지난달 21일 생성형 AI(인공지능)가 만든 콘텐츠에 자발적으로 '워터마크'를 삽입하기로 했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
LLM(초거대 언어모델) 연구가 발전하면서 챗GPT 등 생성형 AI 작성 여부를 판별할 수 있는 '워터마크'를 텍스트 콘텐츠에도 적용할 수 있을 전망이다.
2일 업계에 따르면 구글·MS(마이크로소프트)·메타(구 페이스북)·아마존·오픈AI 등 미국의 7개 빅테크 기업이 지난달 21일 생성형 AI(인공지능)가 만든 콘텐츠에 자발적으로 '워터마크'를 삽입하기로 했다. 미 국방성(펜타곤)이 공격받는 이미지 등 생성형 AI로 만든 가짜뉴스가 미 증시에 충격을 주는 사건까지 발생하며 정부의 규제 압박이 한층 강해지자 자발적으로 안전조치를 취하기로 한 것이다.
오픈AI 등 기업들은 생성형 AI가 텍스트를 만들 때 특정 단어에 가중치를 주거나 문장에 패턴을 넣는 방식으로 워터마크를 삽입하는 방식을 개발 중이다. 해당 방법은 메릴랜드대의 톰 골드스타인 박사 등 연구진이 지난 2월 처음 발표한 논문을 통해 공개됐다. 메릴랜드대 연구진은 '특별단어 목록'을 만들고 사람이 사용할 가능성이 높은 단어보다 목록 내에 있는 단어를 더 많이 사용하도록 유도하면 된다고 설명한다.
생성형 AI는 사람이 사용할 가능성이 높은 단어를 선택하고 문장을 작성한다. 방대한 학습 데이터를 통해 어떤 상황에서 어떤 단어가 어떤 확률로 사용됐는지를 알고 있기 때문이다. 예를 들어 미국의 테니스 선수 세리나 윌리엄스에 대한 문장을 작성할 때, LLM 학습 결과 사람들은 'Serena Williams,' 바로 다음에 21%의 확률로 'the', 16%의 확률로 'who', 6%의 확률로 'a'를 사용해왔다.
메릴랜드대 연구진은 여기서 'who'를 특별단어 목록에 넣어 가중치를 주고, 학습결과와 달리 AI가 'the' 대신 who'를 선택하도록 유도하면 된다고 설명한다. 그리고 '가중치를 둔 특별단어의 사용 빈도'가 바로 '워터마크'가 되는 것이다. 인간이 자연스럽게 글을 쓸 때보다 더 높은 빈도로 특별단어가 사용됐다면 AI가 작성한 글이라고 분류할 수 있다는 의미다. 오픈AI의 정렬성(Alignment) 관련 책임연구원인 얀 라이케는 오픈AI가 고안 중인 워터마킹 방법이 메릴랜드대가 발표한 방법과 유사하다고 했다.
이를테면 세상에 100개의 단어만 있다고 가정하고 이 중 절반인 50개를 특별단어로 분류하면 사람이 글을 쓰면서 특별단어를 사용할 확률은 약 50%가 된다. 사람과 같은 패턴을 학습한 생성형 AI도 똑같은 비율을 보일 것이다. 반면, 워터마크 조치를 통해 특별단어들에 가중치를 두면, AI가 쓴 글에서는 특별단어 사용 비율을 70%까지 끌어올릴 수 있다. 특별단어를 40개로 분류하면 사람이 쓴 글에 특별단어가 사용될 확률은 약 40%가 되고, 워터마크 조치를 한 AI가 쓴 글에서는 60~65%의 확률로 특별단어를 발견할 수 있게 된다.
뉴욕타임스는 어학사전처럼 인간이 사용할 수 있는 거의 모든 단어를 목록으로 만들고 그중 절반을 특별단어로 분류하면 이 '워터마크' 기술이 성공적으로 작동할 수 있다고 설명했다. 뉴욕타임스는 "만약 누군가 텍스트를 편집해 워터마크를 제거하려고 해도, 특별단어 목록이 길고 방대하기 때문에 어떤 단어를 바꿔야 할지 모를 것"이라며 "특별단어를 빼내는 데 성공한다 해도 아주 작은 비중만 줄일 수 있을 것"이라고 강조했다.
한국 기업들도 생성형 AI가 만든 콘텐츠에 워터마크를 삽입하는 방안을 고민 중이다. 오는 8월 말 새 LLM 하이퍼클로바X를 선보이는 네이버(NAVER), 이미지 생성 모델 칼로를 운영하는 카카오, 엑사원 모델을 운영 중인 LG 모두 해당 문제에 대해 내부 논의 중이다.
배한님 기자 bhn25@mt.co.kr
Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지
- '세 집 살림' 남편 사연 충격…"내연녀가 제일 뻔뻔" 김지민 분노 - 머니투데이
- '64세' 김연자 "'13년 열애' 연인과 동거 중…칠순 전 결혼하고파" - 머니투데이
- '몸캠피싱' 걸린 전업주부 남편…유포 영상 본 아내는 '이혼 선언' - 머니투데이
- 대본 던진 김지민, 김준호 거짓말에 "슬슬 멀어지자" - 머니투데이
- "딴 여자와 살림 차린 남편…양육비 안 주더니 이혼소송 걸어" - 머니투데이
- "제주까지 갔는데 속이다니" 국산 방어회가 '일본산'…관광객 떠났다 - 머니투데이
- 임신한 손담비 "잘 때 숨 안 쉬어져" SOS…무슨 일? - 머니투데이
- '토막 살인' 양광준 "죽일 마음 있었다" 실토…계획범죄 증거는? - 머니투데이
- "제주가 어쩌다 이지경" 줄줄이 공실…바가지 쓴 한국인들 "일본 간다" - 머니투데이
- '아이 셋·아빠 셋' 고딩엄마…이혼+동거소식에 큰아들 "미쳤나 싶었다" - 머니투데이