네이버 뉴스 알고리즘의 허와 실 [아이티라떼]

“알고리즘 자체에는 기사 및 사용자의 정치 성향을 특정 짓거나 구분하는 부분이 전혀 없기에, 특정 성향에 유리하게 추천하는 것은 기술적으로 불가능합니다. 다만 사용자에게 제공된 추천은 알고리즘, 기사를 제공하는 생산자, 그리고 이를 소비하는 사용자의 상호작용의 결과물입니다.” (네이버 알고리즘 문서 중)

최근 정치권으로부터 집중포화를 받는 네이버가 뉴스 알고리즘을 두고 적극적인 해명에 나섰습니다.

지난 11일 네이버는 뉴스 알고리즘 문서를 공개했는데요. 수많은 전문용어가 혼재된 이 문서의 핵심은 결국 ‘뉴스가치 판단의 외주화’로 요약할 수 있습니다.

문서에 따르면 네이버 뉴스 추천은 크게 ①개인화 요소 ②비개인화 요소 2가지 요소의 영향을 받습니다.

먼저 개인화 요소는 본인이 과거 읽었던 기사와 연관성이 높은 기사가 추천되는 것을 뜻합니다. 네이버에 따르면 기사 A와 기사 B의 연관성은 전체 독자가 A와 B를 둘 다 읽은 비율에 비례하는데요. 과거에 읽었던 기사가 각자 다른 만큼, 연관성이 높은 기사 역시 각자 다를 수밖에 없습니다.

이외에도 해당 기사를 작성한 기자를 구독했는지, 기사가 올라온 언론사를 구독했는지 등의 영향을 받습니다.

다음으로 비개인화 요소는 다시 ❶독자 측면 ❷언론사 측면으로 나뉘는데요.

첫째로 독자의 클릭 수와 체류시간이 높은 기사를 많이 추천하는 방식입니다. 네이버의 기사 품질 점수는 제목, 본문, 기자, 섹션, 콘텐츠 타입(글/사진/영상), 사진/영상 개수 총 6가지 요소를 기반으로 결정되죠.

그런데 이 6가지 요소들도 결국 과거에 클릭 수 + 체류시간이 높았을수록 가중치가 주어지게 됩니다. 가령 과거에 사진이 2개 있는 기사가 클릭 수와 체류시간이 높게 나타났다면, 앞으로도 사진이 2개 있는 기사에 높은 품질 점수를 부여하는 식이죠.

둘째로 언론사 측면은 지면상의 위치, 비슷한 기사의 개수, 심층기사 선정 여부 등이 추천에 영향을 끼치는 방식입니다. 신문 지면에서 위에 있을수록, 비슷한 내용을 담은 기사가 많을수록, 언론사가 해당 기사를 ‘심층기획’ 기사로 선정했을수록 많이 추천되는 것인데요. 이들 모두 독자가 아닌 언론사가 추천 점수를 결정하게 되죠.

이외에도 최신 기사일수록, 주말·새벽 등 기사량이 적을 때 올라온 기사일수록 점수가 높아집니다.

네이버의 이번 알고리즘 공개를 놓고 생각해볼 만한 점은 크게 3가지입니다.

첫째는 네이버가 정말로 뉴스 배열에 직접 관여하지 않는지입니다.

이번에 네이버가 알고리즘을 상세하게 공개하고 나선 데에는 정치권의 비판이라는 배경이 있습니다. 여야 정치인들이 각자 본인들에게 불리한 기사만 자주 올라온다며 불평하자, 뉴스 추천은 알고리즘에 따라 자동으로 결정되며 네이버는 이에 관여하지 않는다는 메시지를 내보내는 것이죠.

다만 이는 반은 맞고 반은 틀린 대답입니다.

네이버는 뉴스 추천에 영향을 끼치는 요소를 16가지나 공개했지만, 부여되는 가중치가 얼마인지는 공개하지 않았습니다. 여러 요소 중 무엇이 가장 중요한지는 네이버만 알고 있다는 뜻이죠.

즉 필요할 때마다 각 요소의 가중치를 조정함으로써 뉴스 배열에 개입할 수 있다는 것입니다. 가령 자사에 불리한 사건이 터진 즉시 ‘최신성’, ‘심층기사 선정’ 가중치를 낮추는 식으로요.

네이버는 자사 플랫폼에 입점하는 언론사 선정 방식이 논란이 되자 이를 ‘뉴스제휴평가위원회’라는 외부 기관에 맡기고, 뉴스 추천 공정성이 논란이 되자 인공지능 기반 알고리즘이 자동으로 결정하도록 했죠. 최근 악성 댓글 문제가 대두되자 댓글창 오픈 여부를 언론사에 맡기기도 하는 등 스스로 선택권을 줄이는 방식을 택했습니다.

이처럼 비판이 나올 때마다 해당 부분의 결정권을 다른 사람들에게 맡겨버리는 방식이 언제까지 지속될 수 있을지는 의문입니다.

둘째는 네이버의 뉴스 배열 방식이 저널리즘 가치에 부합하는지입니다.

현재 뉴스 배열 방식은 기본적으로 독자의 선호도와 언론사의 추천 여부를 고려하고 있죠. 하지만 지금과 같은 방식이라면 소위 말하는 ‘낚시성’ 뉴스가 많이 소비되는 양상이 더욱 심화될 수밖에 없습니다.

어떤 독자이든 간에 자극적인 기사를 많이 클릭해서 보기 마련이고, 여러 언론사가 경합하는 환경에서는 언론사조차 이러한 기사를 추천할 수밖에 없는 현실이죠.

그러다 보면 자극적인 기사일수록 기사 품질 점수가 올라가게 되고, 높은 추천 점수를 바탕으로 이용자들 눈에는 점점 더 자극적인 기사만 보이게 되는 악순환이 반복되는데요.

이 과정에서 네이버는 높은 클릭 수와 체류시간을 바탕으로 많은 광고 수익을 내게 됩니다.

같은 맥락에서, 올해 중으로 열릴 3차 뉴스 알고리즘 검토위원회에 명단에 전산학 전공자만 있고 언론학 전공자가 없다는 점도 아쉬운 부분입니다.

마지막으로 알고리즘 설명의 친절함 부분에서도 아쉬움이 남습니다.

네이버는 이번에 알고리즘을 공개하면서 “자세한 설명은 이 글을 참조하라”며 자사의 공식 블로그 글을 링크해 놓았습니다. 2021년에 올라왔던 이 글은 총 3회에 걸쳐 뉴스 추천 알고리즘을 설명해 놓았는데, 딥러닝 이론을 배운 사람만 알아들을 수 있는 각종 전문용어로 채워져 있죠.

딥러닝을 구현하는 과정에 자주 사용되는 시그모이드(sigmoid)와 렐루(ReLU) 함수를 언급한 부분이 대표적인 사례입니다. 이와 같은 활성화 함수의 역할은 알고리즘의 방향성을 결정한다기보다는, 이미 결정된 목표를 알고리즘이 더 잘 실현할 수 있도록 돕는 것에 가깝습니다. 즉 알고리즘의 방향성에 대해 알고 싶어하는 독자 입장에선 불필요한 정보죠.

인공지능이 삶에 끼치는 영향이 점차 커지고 ‘설명가능한 인공지능’이 각광받는 시대인 만큼, 어떻게 하면 알고리즘이 만들어진 방식을 더욱 쉽고 간편하게 설명할 수 있을지 고민이 필요해 보입니다.

이 기사에 대해 어떻게 생각하시나요?

매일경제에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

네이버 뉴스 알고리즘의 허와 실 [아이티라떼]