SF작가 테드 창 "챗GPT, 인간지식의 열화된 복사본"

임주형 2023. 2. 14. 06:30
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

"챗GPT, 지식 '압축'해서 학습
원본의 흐릿한 복사본만 남아
복사본으론 창조적 작업 못 해"

오픈AI가 개발한 인공지능(AI) 챗봇 '챗GPT(ChatGPT)'는 가끔 틀린 답변을 제출해 이용자를 당혹게 한다. 구글이 '챗GPT 대항마'로 내놓은 '바드'는 첫 시연에서조차 오답을 출력했다. 방대한 양의 문서를 훈련한 AI가 간단한 팩트조차 혼동하는 이유는 무엇일까.

미국 최고 SF 작가 중 한 명인 '테드 창'이 미 매체 '뉴요커(New yorker)'지에 장문의 글을 올려 그 이유를 설명했다. 그의 글에 따르면 AI는 정보를 '압축'해서 학습하는데, 그 과정에서 AI의 지식은 원본에 비해 무뎌진다.

테드 창 "챗GPT는 인터넷의 흐릿한 버전"

[이미지출처=픽사베이]

테드 창은 지난 9일(현지시간) 뉴요커에 "챗GPT는 인터넷의 흐릿한 JPEG 버전"이라는 제목의 기사를 게재했다. 이 글에서 그는 복잡하고 어려운 언어 생성 모델 AI를 설명하기 위해 이미지 파일 확장자 'JPEG'를 비유로 든다.

JPEG는 우리가 컴퓨터나 휴대폰에 사진, 그림 등 파일을 저장할 때 쓰는 확장자 중 하나다. PNG, GIF 등 다양한 확장자가 있지만, 인터넷에 가장 활발히 유통되는 확장자는 JPEG/JPG다.

JPEG가 이미지 파일 유형 중 '대세'로 떠오른 이유는 낮은 용량 덕분이었다. PNG 같은 확장자에 비해 훨씬 빨리 인터넷에 업로드·다운로드할 수 있었기 때문이다. 대신 JPEG로 저장한 파일은 용량이 높은 확장자보다 화질이 떨어진다. 그림판에 그림을 그려 PNG와 JPEG 확장자로 각각 파일을 저장하면, JPEG 쪽이 살짝 더 '흐릿'해 보일 것이다.

이미지 파일처럼 지식도 손실 압축

PNG 이미지(왼쪽)와 JPEG의 차이. JPEG 쪽이 살짝 더 흐린 화질인 것을 알 수 있다.

JPEG와 같은 파일 저장 방식을 '손실 압축(lossy compression)'이라고 한다. 데이터를 일부 희생하더라도 용량을 크게 줄이는 기술이다. 애초 사진은 화질이 살짝 낮아져도 육안으로 보기에 큰 불편이 없고, 오히려 JPEG 덕분에 인터넷 로딩 속도가 더 빨라졌으니 이득이 훨씬 크다.

이런 JPEG 손실 압축 기술이 챗GPT가 지식을 학습하는 방법과 유사하다. 복잡하고 세부적인 디테일을 추상화해 저장한 뒤, 그것을 다시 사람의 말로 풀어 출력하는 것이다.

테드 창은 "챗GPT나 유사한 언어 모델을 인터넷에 널린 희미한 JPEG 파일이라고 생각하라"라며 "챗GPT는 인터넷 상의 정보 대부분을 갖고 있지만, 그 정보는 JPEG 파일처럼 흐릿해진 이미지에 가깝다"라고 했다.

이어 "따라서 그 이미지의 일부분을 크게 확대해서 극히 디테일한 부분까지 보려 한다면 찾을 수 없게 된다. 우리가 챗GPT에서 찾을 수 있는 건 '근사치' 뿐이다"라고 강조했다.

챗GPT가 가끔 오답을 내거나, 아예 존재하지 않았던 사실을 생성하는 오류를 빚는 것 또한 '손실 압축'의 흔적이라는 게 테드 창의 설명이다. 흐릿해진 부분을 재창조하다 보니 완전히 사실과 달라지는 부분이 생기는 것이다.

"아직 원본 있는데…굳이 질 낮은 복사본 써야 할까"

오픈AI의 챗GPT / 사진=연합뉴스

테드 창은 AI를 창작 과정의 보조 도구로 이용하는 것에 대해서도 회의적이다. 그는 "원본의 흐릿한 복사본만을 출력할 수 있는 기계가 독창적인 작업의 출발점이 될 수 없다"라며 "오히려 인간이 글을 쓰면서 겪는 시행착오나 고민이야말로 독창적 아이디어가 탄생하는 과정"이라고 강조했다.

오히려 챗GPT가 유용한 순간은 인터넷이 아예 끊겨 정보에 접근할 수 없게 됐을 때다. 지식의 원본에 접근할 수 없게 되면 다소 부정확한 복사본이라도 가지는 게 더 낫기 때문이다.

그러나 테드 창은 "지금 우리는 인터넷 접속 권한을 갑자기 상실할 위기에 처해 있지 않다"라며 "여전히 원본이 있는데 굳이 흐릿한 JPEG 버전의 지식을 사용할 필요가 있을까"라고 반문한다.

한편 테드 창은 공상과학소설(SF)에 주는 상들을 석권한 인물이다.

'바빌론의 탑(1990)', '이해(1991)', '당신 인생의 이야기(2002)', '숨(2019)' 등이 대표작이다.

미국 명문 브라운대에서 물리학과 컴퓨터공학을 전공한 과학도로 SF 최고 권위의 휴고상, 로커스상, 네뷸러상을 각각 네 차례씩 수상했다.

임주형 기자 skepped@asiae.co.kr

Copyright © 아시아경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?