생성형 AI가 글 쓰는 과정 역 이용… AI가 표절 잡아낸다
세계적으로 매년 학술·전문지 등에 게재되는 연구 논문 수는 약 200만 건. 수많은 논문들을 비교하며 일일이 표절 여부를 확인하는 건 불가능에 가깝다. 최근엔 생성형 인공지능(AI)으로 논문을 조작하는 일도 적지 않다. 이런 논문의 신뢰성 논란을 해소하기 위해 나온 것이 논문 표절 식별 전문 스타트업인 무하유의 ‘카피킬러’와 ‘GPT킬러’ 서비스다. 이 회사는 2000년대 포털 ‘엠파스’ 검색 엔진 등 100여 개의 국내 검색 설루션 개발에 참여했던 신동호(50) 대표가 2011년 창업했다. 신 대표는 “한국어뿐 아니라 각 나라 언어에 특화된 AI도 개발해 영어와 일본어, 중국어 논문도 검사할 수 있다”고 했다.
표절 검색 서비스 ‘카피킬러’는 현재 서울대, 연세대 등 국내 대부분의 대학과 한국연구재단, 한국전자통신연구원 등 공기업에서 사용되고 있다. 카피킬러는 검토해야 하는 문서를 문장 단위로 잘라 자체 데이터베이스(DB)와 하나씩 비교하는 방식으로 표절 여부를 판단한다. 무하유 DB에는 논문, 보고서, 블로그 글 등 100억 건 이상의 자료가 쌓여 있다. 문서를 DB와 비교한 뒤 일치하는 부분이 나타나면, 이 중에서 법령이나 속담 등 일상적인 표현을 제외하는 작업을 거친다. 신 대표는 “DB 속 문서들을 미리 목차, 각주, 미주, 제목 등 구조별로 나누고 문장 단위로 색인(索引) 작업을 해 1분 안에 표절 여부를 가릴 수 있다”고 말했다.
성장하던 무하유에 닥친 가장 큰 위기는 생성형 AI의 등장이었다. 데이터를 학습하는 것을 넘어 새로운 표현을 만들어 내는 생성형 AI의 특성상 기존 표절 검사 기술로는 대응할 수 없었다. 해외의 생성형 AI 탐지기를 활용하려 했지만 정확도가 높지 않자, 자체 기술 개발로 방향을 틀었다. 이렇게 개발된 서비스가 ‘GPT킬러’다. GPT킬러는 생성형 AI가 글을 쓰는 과정을 역으로 이용한다. 생성형 AI는 특정 단어 뒤에 가장 자연스럽게 이어질 단어를 확률 계산으로 찾아낸다. GPT킬러는 문장 속 각 단어들의 확률값을 유추해 AI 작성 여부를 따진다. 단어마다 확률값이 일정한 수준에 머물러 있으면 AI가 작성했다고 의심할 수 있는 것이다. 신 대표는 “사람이 쓴 글은 단어마다 확률값이 들쭉날쭉하지만 AI는 변동이 거의 없는 게 특징”이라며 “현재 94%의 정확도로 AI가 작성한 글을 찾아낼 수 있다”고 했다.
무하유는 표절 검사를 하며 쌓은 자연어 처리 노하우를 통해 구직자의 자기소개서를 평가하고 AI로 면접을 지원하는 설루션 등으로 사업 영역을 확대하고 있다. 온라인에 돌아다니는 자소서를 베낀 구직자를 걸러내고, 자소서를 근거로 지원자에게 어떤 질문을 하면 좋을지 등을 면접관에게 추천해주는 식이다. 여기에 더해 생성형 AI가 제시한 링크나 문서가 실제로 존재하는지 판별해주는 서비스도 개발하고 있다. 신 대표는 “표절, 저작권 침해, 개인 정보 유출, 환각 등 생성형 AI로 인한 부작용을 막고 검증해주는 종합 설루션 기업으로 나아갈 계획”이라고 했다.
Copyright © 조선일보. 무단전재 및 재배포 금지.
- 제주서 불법 숙박업 혐의, 문다혜 검찰 송치
- ‘한동훈’ 이름으로 尹 비난 글 올린 작성자, 유튜버에 고발당해
- “노숙자 시절, 책 선물해준 은인 찾아요”… 베스트셀러 작가의 사연
- Tteokbokki festival kicks off in Korea’s gochujang hub
- 尹 대통령, 페루 도착...APEC 정상회의 일정 시작
- 男아이돌, 사생팬에 폭행당해…차량 위치추적기도 발견
- ‘성남 야탑역 살인예고글’ 게시자 검거…”익명 사이트 홍보 자작극”
- “단속 안 걸려” 환전 앱 활용한 70억대 ‘불법 홀덤도박장’ 적발
- KAIST 4족 로봇, 마라톤 풀코스 뛴다
- “무보수로 주 80시간 일할 초고지능 인재 찾아요” 머스크 정부효율부 구인