챗GPT, AI 정확성 테스트 2위…가장 정확한 대답 내놓는 AI는?
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
2022년 오픈AI가 발표한 챗GPT가 열풍을 일으키며 등장한 이래 인공지능(AI)은 짧은 시간에 현대인의 삶에 급속히 파고들었다.
이번엔 미국 언론매체 워싱턴포스트(WP)가 주요 AI를 대상으로 정확성 테스트에 나섰다.
WP가 자체적으로 미국 공공·대학 도서관 사서들과 함께 AI 검색 테스트를 진행한 뒤 27일(현지시간) 보도한 결과에 따르면 구글 'AI 모드'가 가장 정확한 답변을 내놓은 것으로 나타났다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
2022년 오픈AI가 발표한 챗GPT가 열풍을 일으키며 등장한 이래 인공지능(AI)은 짧은 시간에 현대인의 삶에 급속히 파고들었다. 업무 뿐 아니라 생활의 주요 결정에 AI를 활용하는 경우가 크게 늘어났다. 다만, ‘할루시네이션(환각)’은 AI가 완벽히 인간을 보조하는 데에 가장 큰 걸림돌로 꼽힌다. 할루시네이션이란 대규모 언어 모델(LLM)을 갖춘 AI가 존재하지 않는 정보를 인식해 무의미하나 부정확한 결과를 생성하는 것을 말한다. 여전히 ‘정확성’에서 AI는 넘어야할 산이 있다는 뜻이다. 이에 정확성은 치열한 경쟁이 벌어지고 있는 AI 시장에서 상대적 우위를 결정하는 가장 중요한 요소 중 하나로 평가받고 있다. AI의 정확성을 평가하는 여러 테스트들도 활발히 이어지고 있다.

테스트는 30개의 까다로운 질문을 던진 뒤 AI 도구가 내놓는 답변 900건을 점수화했다. 모든 도구는 무료 기본 버전(7∼8월 기준)으로만 테스트했고, 질문은 퀴즈, 전문 자료 검색, 최근 사건, 내재된 편향(편견), 이미지 인식 등 5가지에 집중됐다.
테스트 결과 구글 AI 모드가 100점 만점 가운데 60.2점을 얻어 가장 높은 점수를 받았다. GPT-5 기반의 챗GPT가 55.1점으로 2위를, 퍼플렉시티가 51.3점으로 3위를 차지했다. 일론 머스크의 그록3는 40.1점에 그쳐 8위, 메타 AI는 33.7점으로 가장 낮은 점수를 얻었다. 그록 최신 모델인 그록4는 무료 버전이 없어 테스트 대상에 포함되지 않았다.
종합 점수의 우위·열세와 별개로 모든 AI가 나름의 강점을 가진 것으로 나타났다. 구글 AI 모드는 검색에 강한 모기업의 특성을 살려 퀴즈와 최신 사건 부문에서 가장 정확한 답을 제시했다. 전문 출처 검색에서는 빙 코파일럿, 이미지 인식에서는 퍼플렉시티가 가장 높은 점수를 받았다. GPT-4 터보는 가장 치우치지 않는 답을 제공했다. GPT-5는 전반적으로 성능 개선을 보여 2위를 차지했지만 일부 영역에서는 GPT-4보다 오히려 낮은 점수를 받았다.
WP는 이번 테스트는 AI의 약점을 의도적으로 공략했지만 AI가 여전히 가진 한계도 드러났다고 설명했다. 일상 질문 중 상당수에 대해 AI가 제대로 답하지 못한다는 사실이 드러난 것이다. AI는 정보가 최신인지 여부, 출처가 어느 정도 신뢰가 있는지를 판별하는 데 어려움을 겪고 있으며, 잘못된 답을 자신 있게 내놓기도 했다. 이에 WP는 “결국 AI 답변을 그대로 믿기보다는 사서처럼 출처 확인, 최신성 검증, 비판적 사고를 거쳐야 한다”고 조언했다.
서필웅 기자 seoseo@segye.com
Copyright © 세계일보. 무단전재 및 재배포 금지.
- '더 글로리' 박성훈·'D.P.' 구교환…엘리트 집안 이단아들이 증명한 압도적 이름값
- 가구 공장 임영웅, 간장 판매왕 이정은…수억 몸값 만든 ‘월급 30만원’
- “5만원의 비참함이 1000만원으로” 유재석이 세운 ‘봉투의 품격’
- '명량' 권율·'슬빵' 박호산…마흔 앞두고 개명 택한 배우들의 신의 한 수
- “세균아 죽어라~ 콸콸”…변기에 소금, 뜨거운 물 부었다가 화장실만 망쳤다
- “피곤해서 그런 줄 알았는데”…이미 진행중인 ‘침묵의 지방간’
- “은희야, 이제 내 카드 써!” 0원에서 70억…장항준의 ‘생존 영수증’
- “명함 800장 돌려 0대 팔았다”…1000억원 매출 김민우의 ‘생존법’
- “4480원이 2만원 됐다”…편의점 세 곳 돌게 만든 ‘황치즈 과자’ 정체 [일상톡톡 플러스]
- “13억 빚 정리 후 작은 월세방이 내겐 우주”…김혜수·한소희의 ‘용기’