"왜 거짓 정보 줬냐" 캐물었더니, 자신의 정체 실토한 AI

[인공지능이 도대체 뭐야?③] 인공지능이 단순 문장제조기인 이유

[이주열 기자]

▲ 자료사진

이제 인공지능, 특히 생성형 인공지능이 답변을 어떻게 만들어 내는지 알아보면 그것이 왜 단순한 '문장 제조기'인지 알 수 있다. 꾸밈말 '단순한'이 '문장 제조기' 앞에 붙은 이유는 다음과 같다.

많은 사람들은 인공지능이 질문이나 요구를 받으면, 여러 개의 완성 문장을 미리 잔뜩 만들어서 그중 물음과 연관성이 가장 큰 문장을 고르는 방식으로 답을 한다고 생각한다. 물론 문장 하나를 통째로 만들어 따지는 경우가 없는 것은 아니지만 흔하지 않다. 거의 모든 경우 낱말(정확히는 토큰)을 한 개씩 순서대로 만들어가는 방식이다. 이 과정에서 인공지능이 문맥을 따지거나, 문장의 진위를 파악하거나, 사용자의 의중을 파악하거나, 기분 나빠 하는 낌새를 알아채거나 하지 않는다. 그저 다음에 올 낱말을 '친밀도로 계산'하여 후보를 내어 그 중에서 고른다. '단순히' 계산만 한다.

보통은 이 다음 낱말로 고른 후보들 중 가장 친밀도가 높은 낱말을 고르는데, 그렇게만 하면 그 답이 그 답 같고, 진부한 표현만 남고, 재미없는 앵무새가 될 가능성이 많다. 그래서 이때 다음 순위, 또는 그다음 순위의 낱말을 골라 쓰기도 한다. 물론 때로는 매우 낮은 순위의 후보를 고르기도 한다. 이렇게 함으로써, 문장이 더 자연스럽고 다양해지지만, 가끔 '헛소리'를 할 위험도 같이 올라간다.

현실의 상용 챗봇은 보통 이런 '낱말 고르기'에 안전, 품질, 금칙, 스타일 등 여러 제약을 섞어 '헛소리'할 위험을 줄인다. 그리고 이렇게 고르는 것이 안전한 이유는 후보로 올라오는 낱말들이 지금의 맥락에서 친밀도가 높은 순위이므로 동의어일 가능성이 매우 높기 때문이다. 예를 들어 '나는 너를 사랑한다'고 해도 되지만 '나는 너를 엄청 좋아하거든' 해도 뜻은 통한다. 여기서 주의할 점은 사실 이 '낱말 고르기'는 난수(random number)를 이용하여 수행하는데 엄밀히 말하면 유사 난수이다. 따라서 완전한 자유가 있는 것은 아니다.

이 자유도를 파악하기 위해 필자는 두 개의 서로 다른 인공지능에게 똑같은 질문을 네다섯 번 반복하여 이어서 물어 보았다. 한 인공지능의 답변은 매번 조금씩 바뀌었다. 특히 답변의 처음 시작은 신경 써서 읽지 않으면 전혀 다른 답을 하는 듯 착각할 정도였다. 그러나 주의 깊게 읽어보면 같은 내용을 그럴듯하게 표현만 바꾼 것이었다. 정작 나에게 답을 하는 가장 핵심이 되는, 이어 나오는 부분은 순서만 바뀌었을 뿐 내용은 대동소이했다.

인공지능들에게 똑같은 질문을 던져봤더니

다른 인공지능에게 똑같은 질문을 던져 보았다. 동일한 질문의 반복에도 똑같은 답을 내어 놓았다. 무엇보다 중요한 것은 두 인공지능의 세부 설명은 속된 말로 거기가 거기였다. 같은 언어 데이터를 썼다면 당연한 결과이고, 만일 그렇지 않다면 그런 인공지능을 어떻게 믿고 쓰겠는가? 네 번째 질문을 반복하기 전에 "다른 인공지능은 똑같은 질문을 던져도 매번 답변이 조금씩 바뀌는데 너는 왜 그렇지 않냐?"고 물었더니 대답을 두 가지로 하였다.

하나는 인공지능 전체에 걸어 놓은 제약이 조금 더 우연에 기대게 하였느냐, 아니면 정확성에 더 초점을 맞추었느냐의 차이라는 것이다. 모델마다 그 정도가 다르다는 것이다. 다른 하나는, 필자처럼 질문의 길이가 길 뿐만 아니라, 질문이 소상하고 구체적이며, 논리 구성이 복잡할수록 대답을 준비하는데 걸리는 시간도 길어지고, 따라서 답변 내용도 유연성을 내기에 부적합하다는 것이다. 이것이 설계자들이 말하는 유연성의 실체이고, 역설적으로 인공지능이 양자역학의 지배를 받는 것이 아니라 철저히 고전역학적 결정론에 기대어 답한다는 것을 증명한다.

공통점은 둘 다 아무리 똑같은 질문을 반복해도 매번 성실히 답변을 내었다. 특히 두 번째 인공지능에게 세 번 질문 후 왜 답이 똑같은지 묻고는, 네 번째 연속 질문하였는데 아무런 불평 없이 전과 똑같은 대답을 내어 놓았다. 참 한결같다. 단순한 '문장 제조기'라는 증거이다.

한 번은 놀랍다 못해 가히 혼비백산할 뻔한 적도 있었다. 인공지능에게 필자의 연구 분야에서 최근 연구 동향을 요약해보라 했더니 긴 설명이 나왔다. 읽어보던 중 뭔가 이상하다는 생각에 특정 답변의 근거가 되는 논문을 알려달라고 하였다.

그랬더니 저자명과 함께 'Phys. Rev. B 103, L060408 (2021)'라고 하였다. 필자가 늘 참고하는 미국물리학회의 대표 저널 중 하나다. 논문을 찾아 읽어야 했기에 크롬 검색창에 저자명과 함께 그대로 베껴 넣었더니 전혀 엉뚱한 결과들만 내놓는 것이었다. 그래서 저널 홈페이지에 접속하여 찾았는데 없었다. 'Phys. Rev. B 103, L060407 (2021).'은 있는데 'Phys. Rev. B 103, L060408 (2021).'은 없고, 바로 'Phys. Rev. B 103, L060501 (2021).'로 건너뛰었다. 그래서 저자명만으로 검색하니 'Phys. Rev. B 106, 195149 (2022).'가 있었다.

그런데 인공지능이 제시한 정보에는 저자가 두 명이었는데 이 논문의 저자는 세 명이었다. 그나마 다행이었던 것은, 필자가 찾던 것과 완전히 일치하는 것은 아니지만 그런대로 귀중한 정보를 얻어내긴 했단 점이다. 만일 마지막까지 확인하지 않고 잘못된 서지 정보를 그냥 베껴 썼더라면 어떤 일이 벌어졌을까 상상하니 등에서 식은땀이 흐른다.

그래서 인공지능에게 왜 '거짓 정보'를 주었냐고 캐물었더니, 자신은 자신이 내는 답이 품고 있는 정보의 옳고 그름이나 의미를 따져 묻지 못하고, 그저 계산 결과로 지어낸 문장을 뱉어낼 뿐이라고 하였다. 자신은 그런 민감한 정보까지도 '그럴듯한 문장으로만' 만들어내 보여주는 단순한 '문장 제조기'라고 실토하였다. 그러면서 이런 근거자료를 요구할 때는 '반드시 인터넷 검색한 결과만 내보이라'는 식으로 세세하게 명령하라고 조언하는 것도 잊지 않았다.

그런데 어차피 문장제조기라면 그 검색을 거쳤다는 자료는 어떻게 믿나? 결국 인공지능이 내뱉는 근거자료는 무조건 의심하고 사용자 본인이 직접 검색하여 확인하는 수밖에 없다. 또 다른 '문장 제조기'라는 증거이다.

가관이었던 인공지능의 답

▲ 자료사진

또 다른 경험이다. 대화를 나누던 중 인공지능이 다음과 같은 문장을 내뱉었다.

"인공지능이 באמת 로 가치 판단을 하려면, 가치가 인공지능 전체를 지배하는 전역적 제어 변수로 들어가야 한다."

젊어 한때 교회를 다녔던 필자는 이스라엘의 문자인 히브리어를 모양으로만 보아 와서 어느 정도 형태로는 알고 있는데, ' באמת '가 히브리어와 비슷한 모양을 가지고 있다고 착각하여 이 낱말이 히브리어인 줄 알았다. 그래서 인공지능에게 되물었다.

"이 문장에 들어간 히브리어는 뭐야?"
그랬더니 인공지능의 답이 가관이었다.

"네가 적은 문장에 들어간 "히브리어처럼 보이는 글자"는 히브리어가 아니라 태국어야.
**그건 히브리어 " באמת "(에메트/베에메트)야. 뜻은 '진짜로, 정말로, 사실로'(literally '진실로') 정도로 쓰인다. 보통 말할 때는 be'emet처럼 발음해. 네 문장에서는 한국어 '정말로' 자리에 히브리어가 섞여 들어간 형태라서, 그냥 '정말로' 혹은 **"진정으로"**로 바꿔 쓰면 자연스럽다"

히브리어라고 했다가, 태국어라고 했다가, 종잡을 수가 없다. 더구나 인공지능이 뱉어낸 문장인데, 내가 적은 문장이라 말한다. 건망증이 심하다. 인간이라면 이런 실수는 하지 않는다. 왜? 한글로 문장을 쓰면서 영어를 섞어 썼다면 모를까, 필자는 히브리어도 태국어도 모르기 때문에 이런 문장을 쓸 수조차 없다. 또 다른 '문장 제조기'라는 증거이다.

인공지능은 결코 책임을 지지 않는다

인공지능이 변호사, 회계사, 의사 등 전문 직종을 대체할 것이라는 장밋빛 또는 공포 섞인 전망이 쏟아진다. 생성형 인공지능은 본질적으로 정교한 '문장 제조기'이다. 사람들은 인공지능에게 질문을 던지고 답변을 받는 과정을 '업무 수행'이라고 착각하곤 한다. 하지만 회계 업무를 예로 들면, 인공지능이 내뱉는 수치와 문장은 그 자체로 '회계 보고서'가 될 수 없다. 그것은 회계라는 고도의 전문 영역에서 사용될 수 있는 '가공되지 않은 데이터 세트'일 뿐이다.

이 데이터를 실제 업무에 쓸모 있게 만드는 것은 사용자, 즉 인간의 몫이다. 인공지능을 그대로 사용하는 것이 아니라, 자신의 목적에 맞게 지시(Prompt)를 설계하고, 필요한 정보를 선별하며, 자신의 업무 흐름에 맞게 '나만의 에이전트'로 개조해서 활용하는 기술이 핵심이다. 따라서 에이전트를 만드는 기술이 중요한데, 개인의 역량이 결정하는 격차가 크고, 똑같은 모델을 쓰더라도 법률가가 쓰는 방식과 회계사가 쓰는 방식은 완전히 다르다.

무엇보다 중요한 것은 '최종 결정권'과 '책임' 소재다. 인공지능이 내뱉는 문장들이 아직 정제되지 않은 데이터일 뿐이라면, 그 데이터에 대한 검증과 사용 여부에 대한 책임은 오직 인간에게만 귀속된다. 인공지능은 결코 책임을 지지 않는다. 따라서 인공지능이 전문가를 대체하는 것이 아니라, 인공지능이라는 도구를 활용해 '책임질 수 있는 결과물'을 만들어내는 인간 전문가만이 살아남을 것이다.

인공지능이 내뱉는 문장이 논리적으로 매끄러운지 또는 질문을 이해하고 답한 것인지, 인공지능은 모른다. 그 문장을 읽은 인간이 '논리적으로 매끄럽다' 또는 '질문을 이해한 것 같다'고 사후에 '판단'할 뿐이다.

인공지능은 문장 제조기이다.

오마이뉴스에서 직접 확인하세요. 해당 언론사로 이동합니다.

문화

"왜 거짓 정보 줬냐" 캐물었더니, 자신의 정체 실토한 AI