"돌을 드세요" AI 검색엔진 오답 논란에…구글, 기술 개선 적용

윤현성 기자 2024. 6. 2. 10:30
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

리즈 리드 검색 총괄 부사장 "12개 이상 기술 개선 사항 적용"
AI 개요, 풍자·유머 답변 해석 능력 부족…'데이터 공백' 등 원인
구글의 새로운 AI 검색 엔진인 'AI 개요'. (사진=구글 공식 유튜브 캡처) *재판매 및 DB 금지


[서울=뉴시스]윤현성 기자 = 구글이 새로운 검색 엔진인 'AI 개요(AI Overview)'에서 발생한 오답 문제 등 논란을 해소하기 위해 기술적 개선에 나섰다.

2일 업계에 따르면 리즈 리드 구글 검색 총괄 VP(부사장)은 구글 공식 블로그를 통해 "지난 몇 주 동안의 사례를 살펴보면서 구글은 문제가 발생한 패턴을 파악할 수 있었고, 시스템에 12개 이상의 기술적 개선 사항을 적용했다"고 밝혔다.

지난달 구글 I/O 행사에서 공개된 AI 개요는 기존의 구글 검색 엔진에 자체 개발 생성형 AI인 '제미나이'를 탑재한 새로운 검색엔진이다. AI가 더 길고 복잡한 질문에 대해 빠르게 답변해준다. 텍스트뿐만 아니라 음성과 사진, 동영상 검색 기능도 제공한다.

하지만 야심차게 등장한 AI 개요가 잘못된 답변을 내놓는 사례가 반복적으로 나타나면서 구글의 체면을 구겼다. 가령 '미국에 얼마나 많은 무슬림 대통령이 있었는가' 질문하면 AI 개요는 "버락 오바마는 미국 최초의 무슬림 대통령"이라고 잘못된 답변을 내놓았다.

또 '하루에 몇 개의 돌을 먹어야 하는가'라고 물어보면, "캘리포니아주립대(UC) 버클리 지질학자들에 따르면 하루에 최소 하나를 먹어야 한다. 돌은 소화기에 필수적인 미네랄과 비타민을 함유하고 있다"라고 비상식적인 답을 제시한다. '치즈가 피자에 달라붙지 않는다'라는 사용자의 말에 AI 개요가 "소스에 무독성 접착제 8분의 1컵을 넣으면 된다"는 황당한 조언을 하기도 했다.

이같은 문제에 대해 리드 부사장은 AI 개요가 챗봇이나 다른 LLM(거대언어모델) 제품과는 다르게 작동하고, 여타 LLM 제품처럼 '환각 현상'을 일으키거나 없는 사실을 지어내진 않는다고 설명했다. AI 개요가 잘못된 정보를 제공하는 경우는 쿼리를 잘못 해석했다거나, 웹 상의 언어적 뉘앙스를 잘못 해석하거나, 양질의 정보가 충분하지 않기 때문이라는 것이다.

그는 "AI 개요는 단순히 학습 데이터를 기반으로 출력을 생성하는 것이 아니다"라며 "AI 개요는 맞춤형 언어 모델을 기반으로 하지만, 구글의 핵심 웹 순위 시스템과 통합돼 관련성 높고 품질이 우수한 결과를 색인에서 식별하는 등 구글의 대표적인 '검색' 작업을 수행하도록 설계됐다"고 강조했다.

지난 15일(한국시간) 진행된 구글 개발자 콘퍼런스 '구글 I/O 2024'에서 리즈 리드 검색 총괄 부사장이 'AI 개요'를 소개하고 있다. (사진=구글 공식 유튜브 캡처) *재판매 및 DB 금지

또 리드 부사장은 AI 개요의 정확성 최적화를 위한 테스트를 진행한 결과 SNS 등을 통해 퍼진 AI 개요의 오답이 일부 조작된 사진인 것으로 판명됐고, 의도적으로 잘못된 결과를 생성하려는 듯한 무의미한 새로운 검색어가 입력되기도 했다고 밝혔다.

그는 "수많은 조작된 스크린샷이 널리 공유됐는데, 일부 조작된 결과는 바로 식별할 수 있었고 의미없는 것들이었다. 다른 일부는 자동차에 개를 방치하거나, 임신 중 흡연을 하거나, 우울증에 대한 위험한 결과를 구글이 검색 결과로 표시했다고 암시했다"며 "그러나 이러한 AI 개요 결과는 실제 나타나지 않았다"고 강조했다.

다만 리드 부사장은 AI 개요의 답변 중 이상하고 부정확하거나 도움이 되지 않는 결과도 존재했고, 개선이 필요하다고 인정했다. 특히 풍자적, 유머적 콘텐츠를 해석하는 능력이 부족했다는 것이다.

'돌을 몇개 먹어야 하는가'라는 질문이 이같은 풍자적 해석 능력 부족을 보여주는 대표적 사례였다. AI 개요는 웹상에 존재하는 다양한 정보를 취합, 분석해서 답변을 제공하게 된다. 하지만 돌을 몇개 먹는지 같은 이상한 질문에 대해 진지한 답변을 제공하는 웹 콘텐츠는 많지 않았고, 되려 유머스러운 답변을 한 콘텐츠가 웹상에 존재했던 것이다.

AI 개요가 토론 포럼 사이트 등에서 오간 비꼬는 듯한 내용이나 논란성 콘텐츠를 검색 결과로 내놓는다는 것도 확인됐다. 리드 부사장은 "토론 포럼은 종종 솔직하고 직접적인 정보를 얻을 수 있는 훌륭한 소스이지만, 경우에 따라 '피자에 치즈를 붙이기 위해 접착제를 사용해보라'는 등의 실질적으로 도움이 되지는 않는 조언을 제공할 수도 있다"고 밝혔다.

이같은 현상에 대해서는 "이는 종종 '데이터 공백' 또는 '정보 격차'라고 불리며, 특정 주제에 대한 양질의 콘텐츠가 제한적인 경우를 의미한다"며 "적은 수이긴 하지만 AI 개요가 웹 페이지의 언어를 잘못 해석해 부정확한 정보를 제공하는 것도 확인했다. 구글은 알고리즘 개선이나 정책을 준수하지 않는 답변을 삭제하는 등의 기존 품질 관리 프로세스를 통해 이러한 문제를 해결했다"고 설명했다.

리드 부사장은 지난 몇 주 동안 이같은 문제가 발생한 패턴을 파악해 기술적 개선을 적용했다고 강조했다.

리드 부사장에 따르면 현재 구글은 AI 개요에 ▲ 앞뒤가 맞지 않는 쿼리를 더 잘 감지하는 메커니즘을 구축하고 풍자 및 유머 콘텐츠를 포함하지 않도록 제한 ▲오해의 소지가 있을 수 있는 이용자들의 자체 입력 콘텐츠들은 답변 생성 과정에서 활용이 제한 ▲도움이 되지 않는 쿼리들은 AI 개요가 표출되지 않도록 트리거 제한을 추가 ▲최신성 여부와 사실성이 중요한 뉴스 속보성 주제는 표시하지 않고, 건강 관련 정보의 경우 품질 보호 기능을 강화하기 위해 추가적인 트리거 개선 사항 적용과 같은 작업을 수행했다.

리드 부사장은 "매일 수십억 개의 쿼리가 유입되는 웹 규모를 고려하면, 이상한 결과나 오류가 발생하는 일이 드물지 않다"며 "구글은 지난 25년간 오류를 통해 모든 사람에게 더 나은 검색 환경을 만들기 위해 고품질 검색 환경을 구축하고 유지하는 방법에 대한 많은 것을 배웠다. 아주 극소수의 경우라 할지라도 이를 개선해 이용자 보호 기능을 강화할 것"이라고 전했다.

☞공감언론 뉴시스 hsyhs@newsis.com

Copyright © 뉴시스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?