[표지로 읽는 과학] 구글 딥마인드, AI가 쓴 문장 잡아낸다

이번 주 국제학술지 '네이처' 표지에는 글자가 빼곡히 적혀 있는 무수한 종이가 차곡차곡 쌓여 있는 그림이 실렸다. 일부 단어에 빨간색과 하늘색 박스가 씌워져 있는데 이는 대규모언어모델(LLM)에서 생성한 텍스트인지 아닌지 구분하기 위한 표시다.

최근 생성형 인공지능(AI)을 악용한 딥페이크 성 착취물과 가짜뉴스 등이 문제를 일으키며 AI가 초래하는 부작용을 해결할 필요성이 커지고 있다. 네이처는 24일(현지시간) 올해 노벨 화학상을 수상한 데미스 허사비스 최고경영자(CEO)가 이끄는 영국 구글 딥마인드 연구팀이 LLM이 만든 텍스트에 워터마크를 표시해 AI 콘텐츠를 식별·추적할 수 있는 도구를 개발한 연구 결과를 소개했다.

텍스트나 이미지 등 AI가 생성한 결과물은 출처를 식별하기 어렵다. AI 생성물에 '워터마크'를 넣는 방안이 해결책으로 제시됐지만 AI의 계산 효율과 결과의 품질이 떨어지는 문제가 있어 그동안 대규모로 적용하기가 어려웠다. 연구팀은 새로운 방식으로 접근해 AI로 생성된 텍스트에 워터마크를 적용하는 도구인 '신스아이디(SynthID-Text)'를 개발했다.

연구팀은 먼저 LLM이 텍스트를 선택할 때 확률에 편향을 주는 알고리즘을 개발했다. 생성될 텍스트 후보군에서 각 텍스트가 등장할 확률을 의도적으로 편향시키고 선택된 텍스트가 편향된 정도를 탐지해 특정 값 이상일 경우 LLM에서 생성된 텍스트로 판단하는 방식이다.

신스아이디는 구글에서 개발한 LLM인 제미나이의 실시간 대화 2000만 건에 적용돼 평가됐다. 그 결과 워터마크 알고리즘이 없을 때와 비교해 텍스트 품질은 거의 저하되지 않으면서도 다른 AI 텍스트 워터마크 도구보다 LLM이 생성한 텍스트 여부를 탐지하는 성능이 뛰어났다.

연구팀은 신스아이디 알고리즘이 "LLM의 연산 능력에 미치는 영향이 미미하다"면서 "AI로 생성된 콘텐츠의 식별·관리에 필수적인 역할을 할 수 있다는 실질적인 증거"라고 설명했다.

<참고 자료>
- doi.org/10.1038/s41586-024-08025-4

[이채린 기자 rini113@donga.com]

동아사이언스

IT/과학

[표지로 읽는 과학] 구글 딥마인드, AI가 쓴 문장 잡아낸다