챗GPT 앞서가자 조급했나 구글 '제미나이' 성능 논란

실시간 아닌 편집영상 데모
챗GPT와 평가기준도 달라

구글이 지난 7일 공개한 초거대언어모델(LLM) 인공지능(AI) 제미나이가 성능 논란에 휩싸였다. 공개 과정에서 시연한 영상이 실제 사용 영상이 아니라 편집본이라는 지적이다. 또한 오픈AI의 GPT-4를 훨씬 앞선다고 발표한 능력 평가에서 다른 기준을 적용한 것도 논란이 되고 있다. 빠르게 앞서나가는 오픈AI를 따라잡기 위해 구글이 성급한 모습을 보여줬다는 설명이 나온다.

10일 블룸버그와 테크크런치에 따르면 제미나이의 압도적인 성능을 보여줬던 '데모'는 실시간 사용 영상이 아닌 정지 이미지와 텍스트를 통해 만들어진 것이다. 데모에서는 사람이 AI와 음성으로 대화하고 다음 과제로 끊김 없이 넘어가는 것처럼 보인다. 하지만 이는 실시간으로 촬영한 것이 아니라 정지된 이미지를 인식하고 좋은 결과가 나오도록 신중하게 텍스트를 입력한 결과다. 제미나이 반응 속도도 실제와 차이가 난다.

파미 올슨 블룸버그 테크 칼럼니스트는 "제미나이가 실시간으로 주변 세상을 관찰하고 반응한다는 구글의 설명과 데모 영상은 상당한 차이가 있다"고 지적했다. 마케팅을 위해 성능을 과장했다는 것이다.

AI의 여러 능력을 평가하는 테스트 중 하나인 MMLU(대규모 다중작업 언어 이해)에서 점수 90%를 얻어 GPT-4의 86.4%를 뛰어넘었다는 발표에 대해서도 기준이 달랐다는 비판이 나오고 있다. GPT-4는 다섯 번 시도해 얻은 결과였지만 제미나이는 CoT@32라는 방법을 사용했다. CoT@32는 '예제 32개를 이용한 연쇄사고'의 약자로 기존 단순한 반복 시도보다 훨씬 추론 능력이 뛰어나다. GPT-4와 똑같이 다섯 번 시도할 때 실제 제미나이의 점수는 GPT-4보다 낮은 83.7%로 나온다. 구글은 제미나이를 GPT-4와 비교하는 평가에서 일부는 같은 기준을, 일부는 다른 기준을 사용했다.

이번에 가장 뛰어난 성능의 제미나이 울트라가 공개되지 않은 것도 구글의 조급한 상황을 방증한다. 바드에 바로 적용된 제미나이 프로와 달리 울트라는 내년 초 공개될 예정이다. 구글은 제미나이의 안전성과 윤리 평가가 끝나지 않았다는 것을 이유로 설명한 바 있다. GPT-4 터보는 이미 모든 유료 이용자에게 공개된 상태다.

[실리콘밸리 이덕주 특파원]

매일경제

IT/과학

챗GPT 앞서가자 조급했나 구글 '제미나이' 성능 논란