[테크토크]업그레이드한 챗GPT, 오히려 멍청해졌다?
3개월 전보다 수학, 코딩 응답 질 저하
AI 모델 구조 변환했을 가능성 제기돼
올해 초 생성형 인공지능(AI) 열풍을 불러온 오픈AI의 '챗GPT'가 대대적인 업그레이드 후 오히려 부정확한 답변을 내놓는 빈도가 높아졌다는 의혹을 받고 있습니다. 아직 명확히 규명되지 않은 의혹이지만 학계마저 술렁이고 있는 터라 파장은 매우 클 것으로 보입니다.
챗GPT, 업그레이드 후 멍청해졌다?
챗GPT는 오픈AI의 대형 언어 생성 모델(LLM) 'GPT' 시리즈를 기반으로 개발됐습니다. 현재 오픈AI 홈페이지에서 무료로 이용할 수 있는 챗GPT는 'GPT-3.5'를 사용했으며, 유료 구독 후 이용할 수 있는 챗GPT 프리미엄 버전의 경우 이보다 훨씬 개량된 'GPT-4.0'을 사용합니다.
하지만 GPT-4.0 도입 후 챗GPT가 오히려 '멍청해졌다'는 주장이 지속해서 제기되고 있습니다. 지난 5월 미국 메타버스 플랫폼 '로블록스' 개발자인 피터 양은 트위터에 "업그레이드 후 챗GPT의 응답 속도는 더 빨라졌지만, 대신 답변의 질은 더 낮아졌다"라고 지적하기도 했습니다.
앞서 오픈AI 측은 이런 주장에 대해 "오히려 챗GPT는 더 똑똑해졌다"라며 정면으로 반박했습니다. 다만 "이용자 수가 폭발적으로 급증하다 보니 이전에는 보이지 않았던 미흡한 점이 더 자주 발견되고 있을 뿐"이라고 설명했습니다.
"수학 풀이, 코드 생성 등 기능 떨어져" 논문도 나와
그러나 논란은 현재진행형입니다. 심지어 미 스탠퍼드대 컴퓨터 과학 연구진은 최근 챗GPT의 응답 자료를 분석해 실제 성능이 얼마나 저하됐는지 가늠하는 연구 논문을 내놓기도 했습니다.
이 논문에서 연구진은 "수학 문제 풀이, 코드 생성, 시각적 추론 등 4개 영역에서 3월 버전 대비 전반적으로 기능이 떨어졌다"라고 판단했습니다. 다만 해당 논문 또한 아직 피어 리뷰(peer reivew·동료 전문가에게 평가받아 논문을 검증하는 과정)를 거치지 않아 액면 그대로 받아들이기엔 다소 무리가 있습니다.
AI의 '지능'을 판가름하는 것은 사실 매우 힘든 일입니다. 왜냐하면 아직 AI 모델의 실제 성능을 가늠할 수 있는 지표가 없기 때문입니다. 현재 AI 업계에선 다양한 질문과 과제로 이뤄진 데이터를 구성해 'AI 성능 벤치마크 테스트'를 개발하려는 시도가 늘고 있지만, 아직 표준으로 삼을 만한 테스트는 나오지 않았습니다.
하지만 '챗GPT의 답변 퀄리티가 과거와 비교해 떨어졌다'는 주장을 그저 허위로 치부하는 것은 힘들어 보입니다. 실제 개발자를 포함한 여러 유저가 불만 목소리를 내고 있고, 챗GPT의 이용률도 지난달부터 전월 대비 9.7% 감소하는 등 하향 곡선을 그리고 있기 때문입니다.
오픈AI, AI 구조 바꿨을 수도
만일 챗GPT가 3개월 전보다 더 멍청해졌다면, 어째서일까요. 그 이유도 난제입니다. 기계 학습 기술은 빠르게 발전하고 있지만, 아직 학계는 컴퓨터 지능이 '어떻게' 통찰력을 발휘하는지는 알지 못합니다. 챗GPT의 근간을 이루는 딥러닝 기술은 여전히 많은 부분이 블랙박스로 가려져 있어, 정확히 어떤 부분이 성능 저하의 요인이 됐는지 파악하기 힘듭니다.
일부 전문가는 오픈AI가 챗GPT를 이루는 모델을 급진적으로 변화시켰을 수 있다고 추측합니다. 즉, GPT-3.5까지 챗GPT는 하나의 거대한 언어 모델을 기반으로 이뤄졌습니다.
그러나 GPT-4.0부터는 특정 전문 지식만 집중적으로 학습시킨 작은 언어 모델들을 여러 개 모아 하나의 AI처럼 작동시켰을 수 있다는 겁니다. 이런 접근법을 두고 '전문가 혼합(Mixture of experts·MOE)'이라고 합니다.
챗GPT가 거대 모델에서 MOE로 전환됐다면, 응답 속도가 과거에 비해 빨라진 것도 설명됩니다. 다만 한 질문에 답변하는 모델의 크기가 작아지면서 실질적인 추론 능력이 저하됐을 가능성이 있습니다.
새 모델 때문에 품질 저하됐을까
그러나 이런 설명들은 어디까지나 학계 일각에서 거론되는 추측에 불과합니다. 이는 오픈AI가 챗GPT의 실제 AI 모델과 관련된 거의 모든 사항을 공개하지 않기 때문에 벌어지는 혼란이기도 합니다.
미국 비영리 AI 연구기관 '알렌인공지능연구소' 최고경영자(CEO) 오렌 에치오니는 미 매체 '인사이더'에 챗GPT가 MOE 모델로 전환됐을 가능성에 대해 "정확도 높은 추측"이라면서도 "확신은 할 수 없다"라고 했습니다.
에치오니는 MOE 접근 방식에 대해 "응답 속도를 올리고, 더 저렴하게 (AI를) 구동하게 하는 방식"이라면서도 성능을 저하하는 것은 아니라고 강조했습니다. 다만 오픈AI가 챗GPT를 MOE로 바꾸는 과정에서 일부 품질을 희생했을 가능성은 있다고 덧붙였습니다.
챗GPT의 성능 저하 논란은 AI 비즈니스에 새로운 쟁점으로 다가오기도 합니다. 현재 오픈AI는 기업, 혹은 개인에 구독료를 받고 챗GPT 프리미엄 서비스를 제공합니다. 혹은 유료로 API(애플리케이션 프로그램 인터페이스) 사용을 허가하기도 합니다.
하지만 AI의 성능이 기업의 운영 역량에 따라 큰 폭으로 저하할 수 있다면, 소비자 입장에서는 큰 손해가 될 겁니다. AI 제품의 성능을 보장할 수 있도록 투명한 정보공개가 요구될 수도 있는 셈입니다.
임주형 기자 skepped@asiae.co.kr
Copyright © 아시아경제. 무단전재 및 재배포 금지.
- 가수 벤 "아이 낳고 6개월만에 이혼 결심…거짓말에 신뢰 무너져" - 아시아경제
- 버거킹이 광고했던 34일…와퍼는 실제 어떻게 변했나 - 아시아경제
- 100명에 알렸는데 달랑 5명 참석…결혼식하다 인생 되돌아본 부부 - 아시아경제
- 장난감 사진에 알몸 비쳐…최현욱, SNS 올렸다가 '화들짝' - 아시아경제
- "황정음처럼 헤어지면 큰일"…이혼전문 변호사 뜯어 말리는 이유 - 아시아경제
- "언니들 이러려고 돈 벌었다"…동덕여대 졸업생들, 트럭 시위 동참 - 아시아경제
- "번호 몰라도 근처에 있으면 단톡방 초대"…카톡 신기능 뭐지? - 아시아경제
- "'김 시장' 불렀다고 욕 하다니"…의왕시장에 뿔난 시의원들 - 아시아경제
- "평일 1000만원 매출에도 나가는 돈에 먹튀도 많아"…정준하 웃픈 사연 - 아시아경제
- '초가공식품' 패푸·탄산음료…애한테 이만큼 위험하다니 - 아시아경제