분명 내가 쓴 글인데 AI라고? 교수님, 정말 억울합니다

[주장] AI 탐지기의 오류가 만든 혼란... 필요한 건 '의심'이 아니라 '기준'이다

[이서영 기자]

▲ AI생성 이미지

'ChatGPT 쓰면 감점합니다.'

한 과제 공지사항에 적혀 있던 문장이다. 그래서 더 신경 써서 작성했다. 자료도 직접 찾아서 나만의 언어로 정리하고, 문장도 스스로 구상했다. 그런데 과제 채점 결과는 예상 밖이었다. 내가 쓴 글이 AI가 생성한 글로 의심된다는 것이었다.

황당했다. 하나부터 열까지 직접 작성했는데, AI를 썼다고 의심받는 상황.

나뿐만이 아니었다. 다른 수업에서 과제를 제출한 친구도 비슷한 일을 겪었다. 인공지능의 도움을 받지 않고 스스로 작성했지만, AI로 의심된다는 이유로 감점을 받았다고 했다.

그래서 나도 확인해 봤다. 과제를 제출하기 전, 혹시라도 문제가 될까 싶어서, 먼저 AI 탐지기에 내 과제를 돌려봤다. 결과는 더 황당했다. 내가 쓴 문장 중 많은 것이 'AI 생성 의심'으로 표시되고 있었다. 도무지 이해가 되지 않았다. 3시간 동안 자료를 찾아 정리한 것도, 문장을 쓰고 몇 번이나 수정한 것도 전부 나였다.

이 결과를 보고, 문장을 몇 번이나 바꿔봤다. 구조를 바꾸고, 표현을 바꾸고, 단어도 바꿔봤다. 그래도 결과는 비슷했다. 여전히 내가 쓴 문장을 AI가 생성한 것이라고 표시하고 있었다. 결국 포기했다. 더 이상 수정해도 계속해서 AI로 의심받을 것 같았고, "그래도 이 정도면 괜찮겠지"라는 생각으로 그냥 제출할 수밖에 없었다.

이 경험 이후로 글쓰기 과제를 대하는 태도가 달라졌다. 과제를 받을 때마다 누구를 위한 글쓰기인지 의문이 들었고, 이번엔 또 어떻게 문장을 구성해야 AI처럼 보이지 않을까를 먼저 고민하게 됐다. "어떻게 더 좋은 문장을 쓸까"가 아니라 "어떻게 하면 의심받지 않을까"를 더 신경 쓰게 되어버린 것이다.

이게 맞는 걸까.

"내 글을 내가 의심하게 되는 순간"

요즘 대학에서는 과제를 검사할 때 AI 탐지기를 사용하는 경우가 많다. AI가 상용화되면서, 학생이 AI를 이용해 과제를 완성하고 제출한 게 아닌지 확인하기 위해서다.

문제는 기준이다.

탐지기 결과에 의존하여 과제를 채점하지만 어느 정도의 수치부터 문제가 되는지, 또 탐지기의 결과를 얼마나 신뢰할 수 있는지에 대한 설명은 턱없이 부족하다. 학생 입장에서는 매우 혼란스럽다. 내가 직접 쓴 글조차 스스로 의심해 봐야 하는 상황이 생기기 때문이다.

AI 탐지기는 문장 흐름이나 표현 방식을 분석해 해당 텍스트가 얼마나 AI가 생성한 문장과 유사한지를 바탕으로 인공지능이 생성한 것인지, 사람이 쓴 것인지를 예측한다(Mitchell et al., 2023; Gehrmann et al., 2019).

그러나 최근 연구에 따르면 이러한 탐지 방식은 인간의 수정이나 약간의 표현 방식 변화에도 결과가 크게 달라질 수 있으며, 탐지기에 학습시킨 데이터나 조건과 다른 유형의 글에서는 정확도가 크게 떨어진다. 또한 탐지 결과는 확률적인 특성에 기반하기 때문에 항상 절대적으로 정확하거나 일관된 결과를 출력한다고 보장하기 어렵다(Sadasivan et al., 2023).

실제로 동일한 문장을 서로 다른 탐지기에 입력했을 때조차 결과가 크게 엇갈리는 모습을 확인할 수 있는데, 이는 현재 AI 탐지 기술의 한계를 직접적으로 보여준다.

▲ 동일 문장에 대한 AI 탐지기별 판정 결과 비교 동일한 텍스트를 네 가지 AI 탐지기(순서대로 GPTZero, ZeroGPT, QuillBot, Grammarly)에 각각 입력해 분석한 결과를 비교한 이미지이다. ZeroGPT에서는 해당 문장을 AI 생성으로 강하게 의심한 반면, QuillBot과 Grammarly는 AI 생성 가능성을 0%로 판단했고, GPTZero는 7%정도가 인간과 AI가 섞여 있다고 분석했다. 이처럼 동일한 문장임에도 탐지기마다 상반된 결과가 나타나는 것은 현재 AI 탐지 기술의 불일치성과 한계를 보여준다.

참고가 아닌 '처벌 기준'이 된 기술

그럼에도 불구하고 AI 탐지기 결과는 갈수록 강한 '판단의 근거'로 활용되고 있다.

여기서 문제가 발생한다. 분명한 한계가 존재하는 기술이 단순한 참고 자료가 아닌 처벌과 판단의 '기준'으로 활용되고 있다는 것이다. 확률에 기반한 결과가 학생의 성실성을 의심하게 되는 근거가 된다. 이건 기술의 문제가 아니다. 제도의 문제다.

AI 탐지 기술은 아직 완전하지 않다. 그런데 그 불완전한 결과로 글을 평가하고, 감점을 하고, 학생의 성실성을 의심한다. 그 과정에서 가장 먼저 무너지는 것은 학생과 교수 사이의 신뢰일 것이다.

더 큰 문제는 따로 있다. 글을 대하는 학생들의 태도가 바뀌고 있다는 점이다. 더 나은 표현, 더 나은 문장을 쓰기 위해 고민하는 것이 아니라 탐지기에 걸리지 않기 위해 글을 수정한다. 표현을 더 단순하게 바꾸고, 일부러 어색하게 쓰기도 한다. 굳이 바꾸지 않아도 될 문장을 수정하는 등 스스로 글의 질을 낮추는 선택을 하게 되는 것이다. 이건 교육적으로도 바람직하지 않다.

특히 이런 상황은 글쓰기에 대한 자신감 자체를 떨어뜨릴 수 있다. 내가 직접 쓴 글이 AI로 의심받았다는 사실은 다음번 글쓰기에서 적지 않은 부담으로 남는다. 새로운 시도를 하기보다는 무난한 방식에 머무르게 되고 표현을 자유롭게 사용하기보다는 AI 탐지기에 걸리지 않을 '안전한 문장'을 선택하게 된다.

결국 이는 단순히 과제 수행의 문제가 아니라, 학습 태도 전반에 영향을 미칠 수 있다. 자신의 생각을 걱정 없이 표현하는 과정이 위축된다면, 글쓰기의 본래 목적 역시 흔들릴 수밖에 없다.

필요한 건 금지가 아니라 '기준'

이 문제를 해결하기 위해서는 단순히 AI의 사용을 금지하는 것에서 벗어날 필요가 있다. 현재 많은 수업에서는 'AI 사용 금지' 또는 'AI 탐지 시 감점'과 같은 방식으로 AI 사용을 전적으로 제한하려 한다. 하지만 이는 근본적인 해결책이 되기 어렵다. 이미 생성형 AI는 일상적인 도구가 되어버렸고, 이를 아예 금지한다는 것은 현실적으로 불가능하기 때문이다.

지금 필요한 것은 '사용 여부'가 아니라 '사용 방식'에 대한 기준이다. 예를 들어, 어느 정도의 수치부터 감점 요인이 될 수 있는지, 어떤 부분까지는 AI를 참고할 수 있는지 등 사용 방식에 대한 명확한 지침이 필요하다. 단순히 인공지능 사용을 금지하는 게 아니라, 어떻게 활용해야 할지를 교육하는 방식으로 나아가야 한다.

평가 방식 역시 달라질 필요가 있다. 지금처럼 결과물 중심으로 평가할 경우, 'AI 사용 여부'를 둘러싼 논쟁은 끊임없이 이어질 것이다. 채점자는 AI 탐지기 결과에 집중할 것이고, 과제물이 만들어진 과정은 오로지 학생만 알고 있기 때문이다. 논쟁을 줄이려면 사고의 흐름이나 작성 과정, 자료 수집 및 해석 능력 등의 '과제 해결 과정'을 결과물과 함께 평가하는 방식이 더 효과적일 수 있다.

예를 들어, 글을 수정해 나간 과정이나 초안, 참고 자료의 수집 과정과 활용 방식 등을 결과물과 함께 제출하도록 한다면 단순히 결과물만으로 판단하는 것보다 훨씬 공정한 평가가 이루어질 수 있을 것이다.

무엇보다 중요한 것은 '신뢰'다. AI 탐지기라는 기술로 모든 것을 통제하려는 접근은 확실히 한계가 있다. 오히려, 학생을 잠재적인 부정 행위자로 전제하는 것과 다름없는 이러한 방식은 학습 환경을 위축시키는 결과를 가져올 수 있다. 반대로 명확한 가이드라인과 합리적인 설명이 주어진다면 학생들은 그 기준을 충분히 이해하고 따를 것이다.

내가 쓴 글임에도 그것을 스스로 증명해야 하는 상황, 이건 분명히 이상하다. AI 시대에 정말 필요한 건 의심이 아니라 납득할 수 있는 '기준'이다.[참고 문헌]
(1) Mitchell, E., Lee, Y., Khazatsky, A., Manning, C. D., & Finn, C. (2023, July). Detectgpt: Zero-shot machine-generated text detection using probability curvature. In International conference on machine learning (pp. 24950-24962). PMLR.
(2) Gehrmann, S., Strobelt, H., & Rush, A. M. (2019, July). Gltr: Statistical detection and visualization of generated text. In Proceedings of the 57th annual meeting of the association for computational linguistics: system demonstrations (pp. 111-116).
(3) Sadasivan, V. S., Kumar, A., Balasubramanian, S., Wang, W., & Feizi, S. (2023). Can AI-generated text be reliably detected?. arXiv preprint arXiv:2303.11156.

오마이뉴스에서 직접 확인하세요. 해당 언론사로 이동합니다.

사회

분명 내가 쓴 글인데 AI라고? 교수님, 정말 억울합니다