생성형 AI가 글 쓰는 과정 역 이용… AI가 표절 잡아낸다

황규락 기자 2024. 9. 20. 00:35
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[딥테크 인사이드] (11) 표절 검사 서비스 ‘무하유’

세계적으로 매년 학술·전문지 등에 게재되는 연구 논문 수는 약 200만 건. 수많은 논문들을 비교하며 일일이 표절 여부를 확인하는 건 불가능에 가깝다. 최근엔 생성형 인공지능(AI)으로 논문을 조작하는 일도 적지 않다. 이런 논문의 신뢰성 논란을 해소하기 위해 나온 것이 논문 표절 식별 전문 스타트업인 무하유의 ‘카피킬러’와 ‘GPT킬러’ 서비스다. 이 회사는 2000년대 포털 ‘엠파스’ 검색 엔진 등 100여 개의 국내 검색 설루션 개발에 참여했던 신동호(50) 대표가 2011년 창업했다. 신 대표는 “한국어뿐 아니라 각 나라 언어에 특화된 AI도 개발해 영어와 일본어, 중국어 논문도 검사할 수 있다”고 했다.

신동호 무하유 대표가 서울 성동구 본사에서 AI 표절 검사 서비스 ‘카피킬러’에 대해 설명하고 있다. 카피킬러는 100억 건 이상의 데이터베이스에 기반해 빠르게 표절·중복 게재 여부를 판단한다./박상훈 기자

표절 검색 서비스 ‘카피킬러’는 현재 서울대, 연세대 등 국내 대부분의 대학과 한국연구재단, 한국전자통신연구원 등 공기업에서 사용되고 있다. 카피킬러는 검토해야 하는 문서를 문장 단위로 잘라 자체 데이터베이스(DB)와 하나씩 비교하는 방식으로 표절 여부를 판단한다. 무하유 DB에는 논문, 보고서, 블로그 글 등 100억 건 이상의 자료가 쌓여 있다. 문서를 DB와 비교한 뒤 일치하는 부분이 나타나면, 이 중에서 법령이나 속담 등 일상적인 표현을 제외하는 작업을 거친다. 신 대표는 “DB 속 문서들을 미리 목차, 각주, 미주, 제목 등 구조별로 나누고 문장 단위로 색인(索引) 작업을 해 1분 안에 표절 여부를 가릴 수 있다”고 말했다.

그래픽=조선디자인랩 권혜인

성장하던 무하유에 닥친 가장 큰 위기는 생성형 AI의 등장이었다. 데이터를 학습하는 것을 넘어 새로운 표현을 만들어 내는 생성형 AI의 특성상 기존 표절 검사 기술로는 대응할 수 없었다. 해외의 생성형 AI 탐지기를 활용하려 했지만 정확도가 높지 않자, 자체 기술 개발로 방향을 틀었다. 이렇게 개발된 서비스가 ‘GPT킬러’다. GPT킬러는 생성형 AI가 글을 쓰는 과정을 역으로 이용한다. 생성형 AI는 특정 단어 뒤에 가장 자연스럽게 이어질 단어를 확률 계산으로 찾아낸다. GPT킬러는 문장 속 각 단어들의 확률값을 유추해 AI 작성 여부를 따진다. 단어마다 확률값이 일정한 수준에 머물러 있으면 AI가 작성했다고 의심할 수 있는 것이다. 신 대표는 “사람이 쓴 글은 단어마다 확률값이 들쭉날쭉하지만 AI는 변동이 거의 없는 게 특징”이라며 “현재 94%의 정확도로 AI가 작성한 글을 찾아낼 수 있다”고 했다.

무하유는 표절 검사를 하며 쌓은 자연어 처리 노하우를 통해 구직자의 자기소개서를 평가하고 AI로 면접을 지원하는 설루션 등으로 사업 영역을 확대하고 있다. 온라인에 돌아다니는 자소서를 베낀 구직자를 걸러내고, 자소서를 근거로 지원자에게 어떤 질문을 하면 좋을지 등을 면접관에게 추천해주는 식이다. 여기에 더해 생성형 AI가 제시한 링크나 문서가 실제로 존재하는지 판별해주는 서비스도 개발하고 있다. 신 대표는 “표절, 저작권 침해, 개인 정보 유출, 환각 등 생성형 AI로 인한 부작용을 막고 검증해주는 종합 설루션 기업으로 나아갈 계획”이라고 했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?