9개 AI 중 가장 정확한 건?…WP "3위 빙 코파일럿"

공미나 2025. 8. 29. 16:17
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

미국 워싱턴포스트(WP)가 주요 인공지능(AI) 도구의 정확성과 신뢰성을 비교한 결과 구글의 'AI 모드'가 가장 높은 평가를 받은 것으로 나타났다.

27일(현지시간) WP는 9개 주요 AI 도구를 대상으로 30개 질문에 대한 900개 답변을 평가한 결과 AI 모드가 가장 높은 점수를 받았다고 보도했다.

평가 결과 구글 AI 모드는 100점 만점 중 60.2점을 받아 종합 1위를 차지했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.


"AI 맹신하지 말고 검증 거쳐야" 강조

워싱턴포스트 실혐 결과 구글의 'AI 모드'가 9개 주요 AI 도구 중 가장 정확한 답변을 내놓는 것으로 평가됐다. /더팩트 DB

[더팩트 | 공미나 기자] 미국 워싱턴포스트(WP)가 주요 인공지능(AI) 도구의 정확성과 신뢰성을 비교한 결과 구글의 'AI 모드'가 가장 높은 평가를 받은 것으로 나타났다.

27일(현지시간) WP는 9개 주요 AI 도구를 대상으로 30개 질문에 대한 900개 답변을 평가한 결과 AI 모드가 가장 높은 점수를 받았다고 보도했다.

이번 실험은 마이크로소프트의 빙 코파일럿(Bing Copilot), 오픈AI의 ChatGPT, 앤트로픽의 클로드(Claude), xAI의 그록(Grok), 메타의 메타 AI(Meta AI), 퍼플렉시티(Perplexity), 구글 AI 오버뷰와 구글 AI 모드 등을 대상으로 진행됐다. 챗GPT는 GPT-4 터보와 GPT-5 두 모델이 사용됐다.

평가 결과 구글 AI 모드는 100점 만점 중 60.2점을 받아 종합 1위를 차지했다. AI 모드는 구글 제미나이 2.5 기반의 검색 도구다.

2위는 GPT-5로 55.1점을 받았다. 뒤이어 퍼플렉시티가 51.3점으로 3위, 빙 코파일럿이 49.4점으로 4위를 기록했다. 메타 AI는 33.7점으로 가장 낮은 순위를 차지했다.

다만 AI는 정보의 최신성과 출처 신뢰도를 판별하는 데 어려움을 겪고 있으며, 없는 사실을 실제처럼 답하는 이른바 '환각' 현상을 보이기도 했다.

WP는 "이번 테스트는 AI의 약점을 의도적으로 공략했지만, 여전히 AI가 일상적인 질문 중 상당수를 제대로 답하지 못했다"며 "결국 AI 답변을 그대로 믿기보다는 출처 확인, 최신성 검증, 비판적 사고를 거쳐야 한다는 교훈이 강조됐다"고 전했다.

mnmn@tf.co.kr

발로 뛰는 더팩트는 24시간 여러분의 제보를 기다립니다.
▶카카오톡: '더팩트제보' 검색
▶이메일: jebo@tf.co.kr
▶뉴스 홈페이지: http://talk.tf.co.kr/bbs/report/write

Copyright © 더팩트. 무단전재 및 재배포 금지.