"헉, 챗GPT가 2위네"···가장 정확한 답변 내놓는 '무료 AI' 1위 봤더니
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
주요 인공지능(AI) 모델을 대상으로 한 검색 정확도 평가에서 구글의 'AI 모드'가 1위를 차지했다.
이번 테스트에는 구글 'AI 모드'와 'AI 오버뷰', 오픈AI 챗GPT(GPT-5·GPT-4 터보), 앤스로픽의 클로드, 메타 AI, 일론 머스크의 그록(xAI), 퍼플렉시티, 마이크로소프트의 빙 코파일럿 등 9개 도구가 이름을 올렸다.
구글 AI 모드는 평균 60.2점으로 가장 높은 점수를 기록했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

주요 인공지능(AI) 모델을 대상으로 한 검색 정확도 평가에서 구글의 'AI 모드'가 1위를 차지했다. 오픈AI의 챗GPT는 2위에 머물렀다.
워싱턴포스트(WP)는 미국의 공공·대학 도서관 사서들과 함께 진행한 실험 결과를 27일(현지시간) 공개했다. WP는 "가장 신뢰할 수 있는 검색 AI가 누구인지 직접 검증했다"고 설명했다.
이번 테스트에는 구글 'AI 모드'와 'AI 오버뷰', 오픈AI 챗GPT(GPT-5·GPT-4 터보), 앤스로픽의 클로드, 메타 AI, 일론 머스크의 그록(xAI), 퍼플렉시티, 마이크로소프트의 빙 코파일럿 등 9개 도구가 이름을 올렸다.
검증은 모두 무료 버전(7~8월 기준)으로 진행됐으며 30개의 난도 높은 질문을 던져 총 900건의 답변을 평가하는 방식으로 이루어졌다. 평가 항목은 △퀴즈 △전문자료 탐색 △최신 사건 대응 △편향성 여부 △이미지 인식 등 다섯 분야였다.
구글 AI 모드는 평균 60.2점으로 가장 높은 점수를 기록했다. GPT-5 기반 챗GPT는 55.1점을 받아 2위를 차지했으며, 퍼플렉시티가 51.3점으로 3위에 올랐다. 반면 그록3는 40.1점에 그쳐 8위를, 메타 AI는 33.7점으로 최하위를 기록했다.
분야별로 보면 구글 AI 모드는 최신 사건과 퀴즈 문제에서 독보적 성과를 냈고, 전문 자료 검색에서는 빙 코파일럿이 우세했다. 이미지 인식은 퍼플렉시티가 가장 뛰어난 결과를 냈다. 흥미롭게도 GPT-4 터보는 가장 '편향이 적은 답변'을 제시한 모델로 평가됐다.
GPT-5는 종합 점수에서 2위에 오르며 전반적 성능이 향상됐지만 일부 영역에서는 오히려 GPT-4보다 낮은 평가를 받았다. 이는 "최신 모델이 반드시 모든 분야에서 더 낫다고 단정할 수는 없다"는 점을 보여준다.
테스트를 진행한 WP는 "이번 테스트는 AI의 약점을 의도적으로 공략했지만 일상 질문 중 상당수에 대해 여전히 AI가 제대로 답하지 못한다는 사실이 드러났다"며 "결국 AI 답변을 그대로 믿기보다는 출처 확인, 최신성 검증, 비판적 사고를 거쳐야 한다는 교훈이 강조됐다"고 말했다.
임혜린 기자 hihilinn@sedaily.comCopyright © 서울경제. 무단전재 및 재배포 금지.
- '속옷 입은 사진 올린 역도선수 중징계하라' 민원에…'네가 뭔 상관?'
- '황제주 등극 3개월 만에 이럴수가'…160만원 '최고가' 찍었는데 더 오른다?
- '오징어 배 터지게 먹으러 가볼까'…울릉도 말고 사람들 몰려가는 '이곳'
- '일본만? 한국도 '정가 10배'에도 없어서 못 사'…29년 만에 부활한 '이것' 열풍 보니
- '길바닥에서 자는 애들이 왜 이렇게 많아?'…어린이 노숙인 수천명이라는 '이 나라'
- 'GD가 입었는데, 왜 대한항공이 반색?'…화제된 '의외의 굿즈'
- 서울은 9000만원, 경기는 6000만원…아파트 구입한 가구 연소득 살펴보니
- '휴대폰 보는 여성만 노린다?'…양팔 흔들며 다가와 '퍽', 무슨 일이길래
- '학생들 돈으로 교장 가방값까지'…여고생 3명 숨진 브니엘예고, ‘입시 카르텔’ 의혹
- “홍준표·안철수도 했는데”…불법이던 문신, 드디어 '합법'되나