네이버 뉴스 알고리즘 공개 내용 살펴보니

금준경 기자 2023. 7. 8. 10:51
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

네이버 뉴스 알고리즘 안내 페이지 개편해 구체적으로 원리·요소 설명
여러 언론이 다룬 최신 기사 우대 경향 뚜렷… 심층보도 노출 확대 개선안 평가 필요

[미디어오늘 금준경 기자]

여당 의원들이 네이버 뉴스 알고리즘이 보수언론 인기도 순위를 떨어뜨렸다는 의혹을 제기한 가운데 네이버가 뉴스 인공지능 알고리즘 안내 페이지를 개편했다.

네이버는 7일 네이버 뉴스 인공지능 알고리즘 안내 페이지를 개편해 보다 구체적이고 이용자가 이해하기 쉬운 내용으로 구성했다. 알고리즘 안내 페이지는 네이버 뉴스 페이지 우측 상단에 '알고리즘 안내' 메뉴를 클릭하면 접속할 수 있다.

▲ 사진=gettyimagesbank

안내 페이지는 △알고리즘 추천 설계 고려사항 △알고리즘 16개 주요 팩터 △ 뉴스 클러스터링 기술 설명 △기술 고도화 연혁 △뉴스 알고리즘 전문가 그룹 검토 결과 △알고리즘 서비스에 대한 FAQ 등으로 구성됐다. 기존에 네이버는 사이트 내 설명 페이지와 네이버 공식 블로그 등을 통해 관련 설명을 했으나 구체적으로 제시하지는 않았다.

'실시간 예측' '품질측정' '주요이슈 감지' 고려

네이버 뉴스 알고리즘은 4가지 과정을 거쳐 뉴스를 추천한다. 로그인 사용자의 기사 소비 → 4개의 추천 모델로부터 추천 후보군 생성 → 후보군 중 다양한 피처(팩터)를 반영해 랭킹 매기기 → 이용자에게 맞춤형 노출 순이다.

네이버 뉴스 알고리즘은 세가지 요소를 고려한다. △매일 수만건의 기사 가운데 실시간으로 이용자의 선호도를 예측할 것 △자동화된 방식으로 뉴스 품질을 측정해 품질 높은 기사를 배열할 것 △대다수 이용자에게 추천 가능한 주요이슈를 감지할 것 등 이다.

▲ 기사 추천 후보군 생성(왼쪽)과 이후 추천 과정에서 적용되는 피처(팩터)들

이 가운데 주요 이슈 감지는 '많은 언론사가 공통적으로 다룬 사안'에 적용한다. 네이버는 “매일 생산되는 수많은 기사 중에서 많은 언론사가 공통적으로 다루는 주제의 기사가 있다”며 “이런 기사는 사용자의 평소 선호와 무관하게, 모두가 관심을 가지는 '주요 이슈'로 볼 수 있다”고 했다.

알고리즘 추천 주요 팩터 16개 공개

네이버는 뉴스 알고리즘 추천에 영향을 미치는 주요 팩터 16개를 공개했다. 팩터는 이용자에게 노출될 기사 후보군이 제시된 상황에서 어떤 뉴스를 추천할 것인지 결정하는 과정에 영향을 미치는 요인이다. 팩터는 이용자마다 다르게 적용하는 '개인화'와 그렇지 않은 '비개인화'로 나뉜다.

'개인화' 팩터는 △나와 유사한 패턴을 보이는 이용자가 주목한 기사인지('협업필터') △이용자가 최근 해당 섹션(분야)의 기사를 많이 클릭했는지('섹션 선호도') △이용자가 최근 해당 언론사 기사를 많이 클릭했는지('언론사 선호도') △클릭한 기사 제목 키워드를 선호하는지('제목 키워드 선호) △제목과 본문에서 특정 엔터티(사물이나 객체) 키워드가 포함된 기사를 자주 클릭하는지('엔터티 키워드 선호도') △기자구독 여부 △언론사구독 여부 등이다.

'비개인화' 팩터는 △기사 내용과 이미지 등의 품질 반영('기사품질 점수') △최근 짧은 시간 내에 기사의 클릭이 늘어났는지('기사 최신 인기도') △제목과 본문이 유사한 기사들이 클러스터(유사기사 묶음)로 구성되는지('기사 클러스터 점수') △최근 생성된 클러스터인지('기사 클러스터 최신성') △언론사가 많이 다뤘고 이용자가 동시에 주목하는 클러스터인지('소셜임팩트 점수') △최근 작성된 기사인지('기사의 최신성') △언론사에서 심층·기획 기사로 선정한 기사인지('심층기사') △신문 지면기사의 경우 어떤 위치에 편집됐는지('신문지면 위치점수') △기사량이 적은 주말 또는 새벽 시간대 기사인지('시간당 기사 생산량') 등이다.

'최신성'과 '유사기사 우대' 경향, 심층 기사는?

네이버 뉴스 알고리즘의 특성을 종합해보면 주요 현안에 관한 최신 기사들을 적극적으로 노출하는 데 초점을 맞추고 있다. 이는 양질의 심층 기사를 추천하기 어렵게 하는 요소이기도 하다.

우선, 네이버 뉴스 알고리즘은 다른 콘텐츠 추천 알고리즘에 비해 '최신성'에 크게 주목한다. 유튜브에선 최근 콘텐츠뿐 아니라 과거 콘텐츠를 추천하는 경우도 있지만 뉴스의 경우 당일 소식 위주로 소비되는 점을 고려한 조치로 보인다. 뉴스 서비스 특성상 최신성에 주목하는 건 불가피한 면이 있지만 당일 소비만을 생각하지 않는 탐사·기획 기사의 생명력이 짧아지는 문제도 있다.

'중요 사안' 판단을 위해 '클러스터'에 의존하는 점은 전부터 한계가 있다는 지적이 나왔다. 네이버는 '중요 사안'을 판단하기 위해 관련 기사의 양이 많은지를 고려하는데, 여러 언론사들이 특정 사안을 많이 다룬다고 해도 중요 사안이 아닐 수 있고, 양질의 기사보다는 일반적인 속보성 기사들이 더 많이 노출되는 결과로 이어졌다. 특정 언론사가 단독으로 보도한 사안은 다른 언론이 다루지 않아 '중요 사안'으로 다뤄지지 않을 수도 있다.

▲ 네이버 알고리즘 안내 페이지 갈무리

이와 관련 2022년 2차 알고리즘 검토위는 검토결과 발표를 통해 “당시의 주류 논조를 벗어나는 담론을 담고 있는 기사, 심도 있는 기사는 자동화된 검색 결과로서는 탐색되기 어려운 것을 확인했다”며 “이는 전체 뉴스 생태계에서 생산되고 유통되는 지배적인 뉴스를 반영하는 결과로 나타났다”고 했다.

이처럼 최신 기사와 다른 언론이 함께 다룬 주제의 기사를 선호하는 경항은 다수의 기사를 빨리 쓸 수 있는 규모가 큰 언론에 유리한 측면이기도 하다. 네이버가 공개한 팩터를 보면 이용자가 최근 많이 클릭한 언론사 기사의 노출도를 높이는데, 이 역시 기사의 양이 많은 대형 언론에 유리하다. 2차 알고리즘 검토위 역시 “전반적인 추천 과정이 송고되는 기사의 양이 많은 언론사에게 유리하게 동작하는 것으로 우려되는 부분이 존재한다”고 했다.

네이버는 2차 알고리즘 검토위원회 이후 심층 기사 노출을 위한 위한 노력을 했으나 실제 효과를 거뒀는지는 3차 검토위의 검토 결과를 지켜볼 필요가 있다. 네이버는 보완책으로 언론사가 선정한 '심층기사'를 알고리즘 배열에 우대하는 조치를 했는데, 언론사가 직접 선정해 심층성을 판단하기 어려운 면이 있다. 지난 2월 네이버는 '우수보도상 기사' '커버스토리' '기획기사'를 모아주는 '깊이가 느껴지는 시선' 서비스를 출시했는데 전면적으로 부각되지는 않는다는 평가도 있다.

네이버가 공개한 구체적인 설명을 보더라도 주요 요인인 '기사 품질 측정 기준'은 명확히 알기 어렵다. 네이버는 기사 제목, 본문, 기자 정보(바이라인 유무), 섹션 정보(기사 내용에 걸맞은 섹션 배정을 했는지), 콘텐츠 타입 정보, 이미지 혹은 동영상 관련 정보 등을 기준으로 판단한다고 밝혔다. 구체적인 내용을 언론이 알면 노출을 높이기 위한 변칙 행위를 할 가능성이 있어 구체적 공개는 어려운 것으로 보인다. 공개는 어렵다 해도 품질 측정 기준이 합리적인지, 한계는 없는지 검토위가 들여다볼 필요가 있다.

네이버는 주기적으로 외부 전문가로 구성된 알고리즘 검토위를 구성해 검토를 받고 결과를 공개하고 있다. 지난달 30일 네이버는 3차 알고리즘 검토위를 구성했다고 밝혔다. 3차 알고리즘 검토위는 이전 검토위와 달리 언론학자 없이 통계학, 소프트웨어학, 전자공학, 전산학 전공 교수들로만 구성됐다.

[미디어오늘 바로가기][미디어오늘 페이스북]
미디어오늘을 지지·격려하는 [가장 확실한 방법]

Copyright © 미디어오늘. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?