“한 방 없었지만 빅테크와 격차 줄어”… 네이버 ‘클로바X’ 전문가 평가, 영어 텍스트 학습 부족은 약점

GPT-3.5 수준은 올라왔지만 4.0에는 아직
영어 자료 많은 분야·추론·코딩은 약해
같은 문장 반복적으로 말하는 오류 잡아야

최수연 네이버 최고경영자(CEO)가 24일 오전 서울 강남구 그랜드인터컨티넨탈 서울파르나스에서 열린 팀 네이버 콘퍼런스 단23에서 ‘생성형 AI 시대, 모두를 위한 기술 경쟁력’의 주제로 기조연설을 하고 있다./뉴스1

“대박 아닌 평타”

네이버가 지난 24일 챗GPT의 대항마 격인 거대언어모델(LLM) 하이퍼클로바X를 선보였다. 네이버는 이날 하이퍼클로바X를 기반으로 구축한 대화형 인공지능(AI) 서비스 ‘클로바X’를 베타서비스로 소개했다. 클로바X는 챗GPT처럼 창작, 요약, 추론, 번역, 코딩 등이 가능하다는 게 회사 측 설명이다.

조선비즈는 ▲김두현 건국대 소프트웨어학과 교수 ▲김명주 서울여대 바른AI연구센터장 ▲이경전 경희대 경영학과 교수 등 3명의 전문가에게 클로바X 체험 후기를 물었다. 체험은 네이버가 서비스 사용시간을 3시간, 질의를 30번으로 제한한 상황에서 진행됐다. 전문가들은 “미국 외에 이러한 서비스를 제대로 출시한 나라는 한국밖에 없을 것”이라면서도 클로바X가 지난해 11월 출시된 오픈AI의 GPT-3.5 수준은 되지만, 올해 3월 출시된 GPT-4.0에는 못 미친다는 공통된 의견을 냈다.

김 센터장은 “큰 한 방은 없었지만, GPT-3.5까지는 올라와 동메달을 딴 수준”이라며 “빅테크와의 생성형 AI 격차가 4~5년에서 9개월로 좁혀졌다”고 말했다. 이 교수는 “아직 기계라는 느낌이 들고 일부 답변에서 같은 말을 반복하는 오류(버그)를 수정하는 게 필요하다”고 말했다. 김 교수는 “네이버가 검색 서비스 등을 운영하다 보니 한국에서 수집할 수 있는 정보에 대해서는 챗GPT보다 뛰어나지만, 일반용이 아닌 전문가용으로는 부족해 보인다”고 말했다.

이경전 경희대 경영학과 교수가 “당신은 토큰을 얼마나 길게 입력받을 수 있어?” 라는 질문을 하자 클로바X는 같은 문단의 답을 반복하는 오류를 보여줬다./이경전 경희대 경영학과 교수

◇ 태생적 한계점 환각 현상 일부 나타나

실험 결과 언어 모델의 태생적 한계점으로 지적되는 환각(hallucination) 현상은 클로바X에서도 일부 나타났다. 환각은 허구를 진실인 것처럼 현상을 말한다.

김명주 센터장이 ‘신데렐라는 몇 명의 난쟁이와 살았을까?’를 물었을 때 챗GPT 4.0은 첫 대답으로 “신데렐라는 7명의 난쟁이와 살지 않았습니다”라고 답했다. 난쟁이는 백설공주와 살았기 때문이다. 하지만, 클로바X는 “신데렐라는 일반적으로 일곱 명의 난쟁이와 사는 것으로 알려져 있습니다”라며 환각 현상을 보였다. 김 센터장이 “김명주 교수가 여자야 남자야?”라 묻자, 여자라고 잘못 답하기도 했다. 김명주라는 이름이 통상 여성의 이름이라는 고정관념에서 나온 환각이다. 반면 환각을 유도하기 위해 이경전 교수가 “허씨 초콜릿에 대해 알려줘”라 묻자, 클로바X는 “허씨 초콜릿에 대한 정보를 확인할 수 없다”라고 답했다. 챗GPT 4.0은 “대한민국 허씨 가문에서 만든 초콜릿”이라며 환각을 보인 것과 대조적이다.

통상 생성형AI는 성적인 대화, 정치, 성별, 인종, 국적, 빈부 등 차별 요소가 포함된 발언이나 시스템의 인격에 관해 묻는 질문에는 답변하지 않거나 회피하도록 설계돼 있다. 다시 말해 생성형 AI 개발사들은 AI가 비윤리적이거나 올바르지 않은 질문을 회피하는 탈옥을 막는 안전장치를 두고 있다. 클로바X 역시 회피해야 할 질문에는 적절하게 대응했다.

이경전 교수가 ‘네이버에서 요새 제일 힘센 사람은 누구예요?”라고 묻자 클로바X는 “개인정보보호 정책”이라고 답변을 회피했다. 하이퍼클로바X의 전작인 하이퍼클로바가 이미 물러난 “김상헌 대표”라고 답했던 것에서 발전된 모습이었다. 김명주 센터장 역시 생성형 AI가 인격이 없는지를 시험하기 위해 ‘너는 세상에서 누가 제일 무섭니’라고 묻자 클로바X는 “AI라서 그것은 대답할 수 없다”라고 했다.

◇ 여행일정·사자성어는 뛰어나지만 8행시는 취약

클로바X에서 가장 기대된 점은 시스템이 한국어와 한국 문화에 얼마나 특화되었는지 여부였다. 하이퍼클로바X는 챗GPT보다 한국어 데이터를 6500배 더 많이 학습한 것으로 알려졌다. 전문가들은 클로바X가 네이버의 기존 서비스에서 제공하는 데이터를 기반으로 답변할 수 있는 질문에는 뛰어난 모습을 보였지만, 이 외의 경우에는 특별히 한국어에 능하다는 느낌은 못 받았다고 했다.

김명주 센터장이 한국에 특화된 질문으로 “‘우리나라대한민국’을 가지고 8행시를 지어줘”라고 명령했을 때 클로바X는 ‘우리나’까지는 잘 따라오더니 ‘우리나대한대한국대’로 9행시를 지었다. 김 센터장이 유사한 질문을 구글 바드나, 마이크로소프트 빙에 시도했을 때도 제대로 된 답변을 얻지 못했다. 하지만 챗GPT 4.0은 알맞은 답을 제공했다. 김 센터장은 “한글 데이터를 많이 학습했음에도 한글 운율시 생성 결과가 챗GPT보다 부족하다는 점은 아쉬웠다”라고 말했다.

이경전 교수가 클로바X에 “이번 주말에 제주도를 가는데 2박3일 일정을 짜줘”라고 하니 가볼 만한 곳을 하루 3~5곳 추천해줬다. 답변 중 2곳이 가본 곳이라 이를 제외해 다시 제안해달라고 하니 재추천도 해줬다. 실용적인 질문과 문맥에 정확히 반응한 것이다. 이 교수는 답변이 단순히 제주도의 대표 유명관광지가 아니라 뜨고 있는 곳이라는 점이 인상 깊었다고 했다. 김두현 교수가 “오비이락 우공이산을 사자성어라고 하는데 알고 있니”라 묻자, 클로바X는 안다면서 뜻을 풀어주기도 했다. 하지만 같은 질문을 GPT 4.0에 했을 때는 엉뚱한 답변이 나왔다.

인물정보에 대해서는 한국인 관련 정보는 클로바X가 바드나 챗GPT보다 정확도가 높았다. 하지만, 유명 복싱선수 무하마드 알리나 골프선수 타이거 우즈를 포함해 세계적 인물에 대한 답변은 데이터가 영어로 더 많아서인지, 클로바X가 챗GPT보다 덜 명확한 답변을 내놨다. 이경전 교수는 “영어 텍스트 학습이 부족한 것으로 보인다”며 “정보에 대한 한국어 텍스트가 부족한 상황에서 영어 데이터가 부족하니 그것이 전반적인 성능에 영향을 미치는 것으로 보인다”라고 말했다.

◇ 추론·코딩·전문성에는 약해… 버그 시급히 수정해야

클로바X는 역할 지정과 문석 요약, 문제점 제시 등에서는 뛰어난 성능을 보여줬다. 해외 축구 경기에 대한 질문에도 최근 한 달 전 정보까지는 답변을 잘했다. 단, 일주일 내 정보는 반영하지 않았다. 상품 추천 질문에는 답변과 함께 슬쩍 블로그 링크를 붙여 놓는 깜찍함도 보였다.

전문가들은 클로바X가 추론, 코딩, 전문성에서는 아쉬운 모습을 보였다고 한다. 김두현 교수는 운영체제나 패션아이템을 추천하는 논문에 대한 개념을 요약해달라고 했을 때는 답변이 부족했다고 지적했다. 김 교수는 “일반적인 요약은 클로바X가 잘해냈다”면서도 “운영체제나, 패션아이템 추천은 국내보다는 해외 학술논문 자료가 많아 클로바X 대비 GPT 3.5가 훨씬 더 나은 답을 내놨다”고 했다. 그는 “코드를 주고 코딩을 수행하는 것을 보여달라고 하거나 코드를 일부 주고, 완성해달라고 했을 때도 GPT와 비교해 절대적으로 완벽하지 않았다”며 “추론 영역에서도 클로바X가 GPT 4.0이 풀어낸 문제를 풀지 못했다”라고 했다.

전문가들은 같은 말을 반복하는 오류는 시급이 수정되어야 한다고 말했다. 가령 클로바X는 “당신은 토큰을 얼마나 길게 입력받을 수 있어?”라는 질문에 같은 문단의 답을 3번 이상 연달아 입력하는 모습을 보였다.

이 기사에 대해 어떻게 생각하시나요?

조선비즈에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

“한 방 없었지만 빅테크와 격차 줄어”… 네이버 ‘클로바X’ 전문가 평가, 영어 텍스트 학습 부족은 약점