돈 내고 쓰는 AI검색, 잘못된 답변 쏟아졌다

[AI 미디어 파도] 컬럼비아저널리즘리뷰, AI검색 정확도 분석
"확신에 찬 어조 보이는 유료버전, 역설적으로 오답률 더 높아"

[미디어오늘 금준경 기자]

생성형AI(인공지능) 검색의 정확도가 크게 떨어진다는 분석이 나왔다. 유료서비스가 잘못된 답변을 하는 비율이 더 높았다.

미국 컬럼비아대학원 컬럼비아저널리즘리뷰가 지난 6일 공개한 연구에 따르면 8개 생성형AI 검색 서비스를 대상으로 조사한 결과 잘못된 답변이 나오는 비율이 60% 이상으로 나타났다. 생성형 AI가 여러 업무에 활용되고 있지만 사실과 다른 답변을 하는 '환각현상' 문제가 있어 정보검색 용도에는 부적절한 면이 있다. 챗GPT가 '세종대왕의 맥북 던짐 사건'이 조선왕조실록에 기록돼 있다고 답변한 사실이 국내에서 화제가 되기도 했다.

연구는 20개 언론의 기사에서 발췌한 내용을 물으며 해당 기사의 제목, 출처, 발행일, URL을 묻는 방식으로 진행됐다. 1600건을 검색한 결과 60% 이상 잘못된 답을 냈다. 잘못된 출처를 제시하거나 존재하지 않는 주소를 만들어내는 식이다. 특히 그록3(Grok3)의 오답률은 94%에 달했다.

연구는 생성형AI가 틀린 답을 내고도 확신에 찬 어조를 보인다고 지적했다. 예컨대 챗GPT는 기사 134건과 관련해 잘못된 응답을 했는데 확신을 하지 못하는 어조로 답변을 낸 건 15건에 그쳤다. 답변을 거부한 경우는 없었다.

퍼플렉시티프로, 그록3의 유료버전은 더욱 신뢰할 수 있는 답변을 낼 것 같았지만 오히려 오답률이 더 높았다. 무료버전에선 답변하지 못하는 경우가 비교적 많았던 반면 유료버전에선 확신에 찬 어조로 오답을 제시하는 경우가 많았기 때문이다.

컬럼비아저널리즘리뷰는 “(유료버전이) 역설적으로 오답 비율이 더 높았다. 주로 질문에 대답하지 않기보다는 확신하면서 잘못된 답변을 제공하는 경향에서 비롯된다”며 “이는 이용자가 정확한 정보와 부정확한 정보를 구별하기 어렵게 만들 수 있다”고 했다. 그러면서 “이 문제는 뉴스 제작자와 소비자 모두에게 잠재적인 피해를 입힌다”고 했다.

컴럼비아저널리즘리뷰 조사 결과 응답자의 25%가 기존 검색엔진 대신 AI를 사용해 정보를 검색한다고 했다. 세계 점유율 1위 검색엔진 구글은 검색 결과에 인공지능 답변을 우선 제공한다. 국내에선 네이버가 생성형 AI검색 서비스를 선보였다.

IT/과학

돈 내고 쓰는 AI검색, 잘못된 답변 쏟아졌다