[NDC2021] "오프라인 A/B 테스트는 NCIS 방식으로~"

엔씨소프트 정예원 "NCIS가 가장 유사하게 예측"

“오프라인 A/B 테스트는 온라인에서 테스트할 때의 위험 부담을 줄이기 위한 대안입니다. 테스트 알고리즘을 오프라인으로 적용해 추론하는 것입니다. 사용자 반응 보정을 위한 샘플링은 ‘노멀라이즈 캡핑 임포턴스 샘플링(NCIS)’이 가장 실제와 유사한 결과를 보여줬습니다.”

9일 엔씨소프트의 지식AI랩(Knowledge AI Lab) 큐레이션팀 정예원 연구원은 이날 개막한 ‘넥슨개발자콘퍼런스(NDC)’에서 ‘추천알고리즘 오프라인 A/B 테스트’를 주제로 강연에 나섰다. 그는 이날 강연에서 오프라인 A/B 테스트의 개념과 추론 방법, 실제 엔씨소프트의 야구 정보 앱 ‘페이지’에 적용한 사례를 소개했다.

정 연구원에 따르면 A/B 테스트는 A와 B의 알고리즘의 성능을 비교 평가하는 것이다. 하나의 서비스에는 여러 개의 추천 컨셉트나 알고리즘을 시도해볼 수 있어 이를 검증하는 테스트가 필요하다.

예를 들어 음악 서비스의 경우 인기순이나 사용자가 좋아하는 가수의 음악, 좋아하는 장르의 음악 등 여러 가지의 추천 알고리즘을 제시할 수 있다. 이때 어떤 알고리즘이 효과적인지 살펴보는 것이 A/B 테스트다.

이중 온라인 A/B 테스트는 실제 서비스에 A와 B를 모두 적용해 비교 평가하는 것이고 오프라인은 과거 A 알고리즘이 실제 서비스됐던 기록을 이용해 B 모델을 검증하는 방식이다.

다만 온라인 A/B 테스트의 경우 신뢰도가 높지만 충분한 자료가 수집되기까지 많은 시간이 소요되고 위험 부담도 크다. 테스트 알고리즘이 좋은 성능을 보장하지 못하면 사용자의 이탈은 물론 매출 하락으로도 이어질 수 있다. 이에 대안으로 마련된 것이 알고리즘을 오프라인으로 적용해 추론해 보는 것이다.

예를 들어 추천 아이디어가 100개라면 절반인 50개만 선별해 개발하고 50개를 테스트해 비교한 이후 성능이 보장된 5개만 적용한다.

물론 오프라인 테스트도 약점은 있다. 많은 가정이 필요하고 테스트 결과가 실제 결과와 다를 수도 있다.

음악 서비스를 예로 들어 인디밴드 음악을 좋아하는 20대 여성이 있고 추천받을 시기가 맑은 봄이었다고 하자. A 알고리즘의 경우 인디밴드 음악 3개, B의 경우 맑은 봄날씨에 듣기 좋은 음악 3개를 추천한다. A는 이미 적용돼 추천한 알고리즘에 대한 이용자 반응을 알 수 있지만 B는 아직 적용되지 않아 알 수 없다.

이는 테스트의 결과가 A 알고리즘과 이로부터 생성된 사용자 반응에 편향되게 만든다. 테스트 알고리즘이 새롭게 제시할 콘텐츠의 사용자 선호도 평가가 어렵다.

그러나 최근에는 ‘카운터팩추얼 씽킹(counterfactual thinking)’ 접근의 연구가 많이 이뤄지고 있어 이를 극복해 나가고 있다. 이는 ‘만약 ... 했다면’하는 조건부와 ‘...했을 텐데’의 결과부로 구성된다. “만약 ‘어떻게 지내’라는 음악이 A가 아닌 B 알고리즘에 의해 1번째로 추천됐다면 20%의 확률로 추천되었을텐데”로 적용해 보는 형식이다. 정 연구원은 알고리즘의 아이템 추천 확률 개념을 이용해 사용자의 반응을 리웨이팅하는 방법으로 한계를 극복할 수 있다고 소개했다.

그는 “오프라인 테스트는 야후, MS, 넷플릭스에서도 시도하고 있고 최근에도 인공지능 및 머신러닝 관련 학술지에 관련 논문이 증가하는 추세”라며 “추천알고리즘 외에도 사용자와 상호작용하는 시스템에 모두 적용 가능하다”라고 강조했다.

그는 오프라인 A/B 테스트의 실제 추론방법도 소개했다. 가장 중요한 것은 ‘임포턴스 웨이트’ 개념이라고 설명했다. A 알고리즘에 비해 B 알고리즘이 얼마나 추첨될 확률이 높은지 혹은 낮은지를 계산하는 개념이다.

가령 A 알고리즘을 통해 관측된 데이터가 존재하고 사용자가 추천된 음악 3개 중 2개에 반응을 했다면 이는 약 66%의 반응률을 가지게 된다.

여기에 A 알고리즘이 ‘스토캐스틱(stochastic)’ 알고리즘이라면 각각의 노래가 K번째 추천될 확률도 존재한다. 랭킹을 결정하기 위한 스코어 값이 고정되지 않고 분포에서 샘플링되기 때문에 동일 상황이어도 추천되는 아이템이나 그 순서가 달라질 수 있다는 설명이다.

정 연구원은 다시 ‘어떻게 지내’라는 음악이 80%, ‘주저하는 연인들을 위해’가 60%, ‘여행’이 70%라고 추천확률을 가정하고 여기서 A 알고리즘 내 K번째 추천확률에 B 알고리즘의 추천확률을 추가하는 것이 핵심이라고 설명했다. 이를 통해 A 대신 B 알고리즘을 적용했을 때 각 노래가 K번째 추천될 확률을 시뮬레이션을 통해 계산할 수 있다고 한다. 이런 기업이 ‘몬테 카를로 시뮬레이션’이다. 예를 들어 1000번 추천 리스트를 생성하고 B 알고리즘이 ‘어떻게 지내’라는 노래를 첫 번째로 추천할 확률을 구하는 것이다.

그는 각각 A 알고리즘에 의해 추천됐던 3개의 노래가 B 알고리즘에서 K번째로 추천될 확률을 순서대로 20%, 20%, 90%로 가정하고 이를 A 알고리즘 내 K번째 추천확률로 나눠 웨이트 값을 구할 수 있다고 설명했다. 계산된 웨이트 값은 각각 0.25, 0.33, 1.3이었다.

그는 “B 알고리즘이 A보다 추천될 확률이 낮으면 웨이트값이 1보다 낮고 B 알고리즘이 A보다 추천될 확률이 높으면 1보다 크게 된다”라고 설명했다.

이처럼 B 알고리즘 입장에서 A에 비해 얼마나 추첨될 확률이 높은지 혹은 낮은지의 의미를 담은 웨이트를 사용해 사용자 반응을 보정하는 방법이 ‘인포턴스 샘플링(IS)’이다. 계산 방법은 사용자 반응에 웨이트를 곱해서 평균을 구하는 것인데 예시로 계산했을 때 B 알고리즘의 추정 반응률은 54.3%로 나왔다.

다만 ‘임포턴스 샘플링’의 경우 치명적 문제도 존재한다. A 알고리즘에서 매우 낮은 확률로 노래가 추천되면 굉장히 높은 웨이트 값이 생성될 수 있다는 점이다. 하나의 데이터 웨이트가 전체 결과에 큰 영향을 미치게 된다.

그는 예시를 통해 A 알고리즘의 추천 확률이 매우 낮을 경우 추정 반응률이 비정상적으로 나오는 결과를 보여주기도 했다.

이 문제를 해결하기 위한 방법 중 하나는 ‘캡핑 임포턴스 샘플링(CIS)’이다. 특정 값 C 보다 웨이트가 클 경우 C로 대체하는 것이다. 그는 이날 강연에서 C값을 임의로 2로 설정해 에러를 최소화한 모습을 보였다. 그 결과 추정 반응률은 약 77%로 고정됐다.

또 다른 방법으로는 ‘캡핑 웨이트’ 값의 합을 이용해 정규화하는 ‘노멀라이즈 캡핑 임포턴스 샘플링(NCIS)’ 방법론도 소개했다. CIS를 정규화해 예측 에러를 최소화시킨 방식이다.

엔씨소프트는 이런 오프라인 A/B 테스트를 ‘페이지’ 서비스에도 실제 적용했다. ‘페이지’는 엔씨소프트의 종합 야구 정보 앱이다.

정 연구원에 따르면 적용한 분야는 ‘페이지’ 앱의 홈 탭이었다. 뉴스, 영상, 퀴즈, SNS 등을 추천한다. 기본 알고리즘은 톰슨 샘플링을 사용했다. 톰슨 샘플링은 어떤 아이템의 클릭률이 높은지 탐색하는 기능과 탐색된 내용을 바탕으로 클릭 확률이 높은 아이템을 추천하는 기능을 수행하며 추천 랭킹을 결정한다.

결과는 ‘NCIS’가 가장 실제와 유사한 결과를 예측했다. 추정 방법론으로는 IS, CIS, NCIS를 모두 활용했다. 이중 NCIS를 활용했을 때 반응률이 0.69%포인트 상승할 것으로 예측됐고 실제 온라인 A/B 테스트 결과 반응률이 0.7%포인트 올랐다.

정 연구원은 “여러 번의 반복적인 실험을 통해 NCIS의 성능이 가장 좋은 것을 알 수 있었다”라며 “그러나 적절한 그룹으로 데이터를 나눠 노멀라이즈하는 피스 NCIS도 있고 데이터를 각각 개별로 나눠서 노멀라이즈 하는 포인트 NCIS도 있다”고 소개하기도 했다.

다만 이 같은 오프라인 A/B 테스트를 수행할때의 전제 조건도 존재했다. ‘스토캐스틱’ 알고리즘이 아닌 스코어가 변하지 않는 ‘디터미니스틱’ 알고리즘의 경우 ‘스토캐스틱’ 모델로 근사화할 필요가 있다는 설명이다. 정 연구원은 이를 위해 랭킹 스코어 기반의 ‘웨이티드 샘플링’을 통해 추천확률을 생성하거나 ‘더블리 로버스트’ 방법론을 적용할 수도 있다고 덧붙였다.

[임영택 게임진 기자]

이 기사에 대해 어떻게 생각하시나요?

매경게임진에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

[NDC2021] "오프라인 A/B 테스트는 NCIS 방식으로~"