9개 AI 중 가장 정확한 건?…WP "3위 빙 코파일럿"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
미국 워싱턴포스트(WP)가 주요 인공지능(AI) 도구의 정확성과 신뢰성을 비교한 결과 구글의 'AI 모드'가 가장 높은 평가를 받은 것으로 나타났다.
27일(현지시간) WP는 9개 주요 AI 도구를 대상으로 30개 질문에 대한 900개 답변을 평가한 결과 AI 모드가 가장 높은 점수를 받았다고 보도했다.
평가 결과 구글 AI 모드는 100점 만점 중 60.2점을 받아 종합 1위를 차지했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
"AI 맹신하지 말고 검증 거쳐야" 강조

[더팩트 | 공미나 기자] 미국 워싱턴포스트(WP)가 주요 인공지능(AI) 도구의 정확성과 신뢰성을 비교한 결과 구글의 'AI 모드'가 가장 높은 평가를 받은 것으로 나타났다.
27일(현지시간) WP는 9개 주요 AI 도구를 대상으로 30개 질문에 대한 900개 답변을 평가한 결과 AI 모드가 가장 높은 점수를 받았다고 보도했다.
이번 실험은 마이크로소프트의 빙 코파일럿(Bing Copilot), 오픈AI의 ChatGPT, 앤트로픽의 클로드(Claude), xAI의 그록(Grok), 메타의 메타 AI(Meta AI), 퍼플렉시티(Perplexity), 구글 AI 오버뷰와 구글 AI 모드 등을 대상으로 진행됐다. 챗GPT는 GPT-4 터보와 GPT-5 두 모델이 사용됐다.
평가 결과 구글 AI 모드는 100점 만점 중 60.2점을 받아 종합 1위를 차지했다. AI 모드는 구글 제미나이 2.5 기반의 검색 도구다.
2위는 GPT-5로 55.1점을 받았다. 뒤이어 퍼플렉시티가 51.3점으로 3위, 빙 코파일럿이 49.4점으로 4위를 기록했다. 메타 AI는 33.7점으로 가장 낮은 순위를 차지했다.
다만 AI는 정보의 최신성과 출처 신뢰도를 판별하는 데 어려움을 겪고 있으며, 없는 사실을 실제처럼 답하는 이른바 '환각' 현상을 보이기도 했다.
WP는 "이번 테스트는 AI의 약점을 의도적으로 공략했지만, 여전히 AI가 일상적인 질문 중 상당수를 제대로 답하지 못했다"며 "결국 AI 답변을 그대로 믿기보다는 출처 확인, 최신성 검증, 비판적 사고를 거쳐야 한다는 교훈이 강조됐다"고 전했다.
mnmn@tf.co.kr
발로 뛰는 더팩트는 24시간 여러분의 제보를 기다립니다.
▶카카오톡: '더팩트제보' 검색
▶이메일: jebo@tf.co.kr
▶뉴스 홈페이지: http://talk.tf.co.kr/bbs/report/write
Copyright © 더팩트. 무단전재 및 재배포 금지.
- [속보] 김건희, 특검 수사개시 59일 만에 구속기소 - 사회 | 기사 - 더팩트
- "투자 내역 다 밝혀라" 압박에…'법인세 불복' 윤관 측 "그건 곤란" - 경제 | 기사 - 더팩트
- 이자놀이 경고 후폭풍…은행권, 생산적 금융으로 체질 전환 - 경제 | 기사 - 더팩트
- '낙동강 오리알 신세' 친한계…당내 혁신 사라지나 - 정치 | 기사 - 더팩트
- 李 대통령 "재정 적극적 역할 필요한 시점"…국회에 예산안 협조 요청 - 정치 | 기사 - 더팩트
- 무신사 '10조' 몸값 시험대, 증권사 주관 경쟁…시장 평가는 미지수 - 경제 | 기사 - 더팩트
- [TF초점] 잘 달리던 '트라이', 뒷심 부족…용두사미로 전락 - 연예 | 기사 - 더팩트
- [TF초점] 김숙·구본승 '10월 결혼설', 가짜 로맨스'로 웃음 파는 방송 - 연예 | 기사 - 더팩트