쿠팡 과징금-③AI는 ‘의도’와 ‘지능’이 없다고?? 관리는 사람이 하는데!!

[이용우의 경제 더하기]
쿠팡은 알고리즘의 기준을 공개해야
기준 공개가 인위적개입 막을 수 있어
나아가 '데이터 거버넌스' 구축 고민해야
챗GTP시대에서 발생할 '데이터 문제'도

쿠팡은 알고리즘에 의한 추천이므로 쿠팡이 인위적으로 간여한 것이 아니라고 주장하면서 공정거래위원회의 과징금 부과는 플랫폼 유통사업을 공정위가 이해하지 못하기 때문에 생긴 것이며 소송을 통해 바로잡겠다고 한다. 그러면 우리는 이제 알고리즘과 인공지능에 의한 데이터 처리는 어떤 의미를 갖고 있는지 봐야한다.

소환되는 네이버 제재

공정위가 알고리즘을 사용하여 검색결과를 바꾸고 이를 통해 자사 계열사 서비스로 고객을 유인하고 경쟁사 서비스에 접근을 제한하는 것을 적발하고 고발조치를 한 것이 이번이 처음이 아니다. 지난 2020년 공정위는 네이버의 ①부동산부문, ②쇼핑부문, ③동영상 부분을 검색순위 변경 등을 통해 경쟁을 제한하고 있다는 것을 적발하고 고발 조치하였다. 이 때에도 알고리즘, 즉 기계가 사람의 개입없이 객관적으로 검색결과를 제공하는 것이라고 주장하고 공정위의 조치는 플랫폼 사업의 기술적 속성을 이해하지 못한 것이라는 주장이 대두되었다.

회사마다 업무를 처리하는 방식은 그 회사 고유의 노하우가 담겨 있는 것이기 때문에 영업비밀의 속성을 갖는다. 플랫폼에서 그 업무 처리의 핵심은 알고리즘이다. 경쟁당국이 회사의 영업비밀을 공개하라고 하는 것은 플랫폼 기업의 자유로운 경제 행위를 하지 못하게 하는 것이라고 주장할 수도 있다. 문제는 그 알고리즘을 만들고 관리하는 것은 회사의 '사람'이라는 것이다.

네이버 부동산의 경우 부동산 매물정보를 제공하는 업체에서 정보를 받아서 게시하는데, 경쟁사에는 제공하지 못하게 한다든지 자사에게 유리한 거래정보를 검색상단에 올렸다. 아울러 네이버 쇼핑의 경우 오픈 스토어에 입점한 업체 중 자사에게 유리한 업체를 앞 순위에 올렸을 뿐만 아니라, 거래방식도 네이버가 운영하는 네이버페이를 이용하는 것을 강제하였다. 동영상 제공 서비스의 경우도 마찬가지였다.

공개해야할 알고리즘의 기준

알고리즘은 어떤 업무를 수행할 때 각 단계, 프로세스마다 ‘어떤 기준’을 통해 업무를 수행하라는 일종의 명령처리 과정을 말한다. 업무처리를 위한 프로그램이다. 검색 알고리즘은 검색 노출순위를 결정하는 일련의 명령어 집합이기 때문에 여기서 ‘인위적인 개입’이 일어나면 그 경쟁제한성을 찾아내기가 어렵다. ‘어떤 기준’과 ‘인위적 개입’이 핵심이다. 그 기준이 플랫폼의 PB상품이나 계열사/관계사의 상품을 유리하게 하는 것이라면 경쟁당국이 개입할 수 밖에 없는 사안이 된다. 또한 소비자들도 그 기준을 알고 있어야 한다. 공정하게 검색 결과를 통해 상품이 배치되는 것으로 알고 있었는데 그것이 아니었다면? 알고리즘은 업무를 수행하면서 시행착오를 거쳐 수시로 수정되는데 그 결과가 플랫폼에 불리해 그 기준을 수정한다면 문제는 심각해진다.

플랫폼업체가 알고리즘 전체를 공개할 필요는 없지만 그 기준을 공개하는 것이 필요하다. 정보의 비대칭성이 있는 경우 시장은 경쟁제한적으로 될 가능성이 높다. 이를 시정하는 방법은 해당 정보를 공개하여 그 서비스를 이용하는 사람들이 그것을 검증하는 것이다. 이를 통해 기준의 비합리성과 인위적 개입을 막을 수 있는 것이다.

공정위는 알고리즘을 통해 검색순위 등에 대해 인위적으로 개입한 네이버의 사안에 대해 2020년 고발조치했다. 이를 계기로 플랫폼업체는 이런 행위의 문제점을 잘 알고 있었다. 쿠팡도 잘 알고 있었다는 것을 이번 공정위의 조사 결과로 드러났다. 2021년 2월의 쿠팡의 내부 자료는 “리뷰 평점이 낮은 상품에 대해 리뷰 평점을 개선시킬 목적으로 쿠팡 또는 CPLB 의 직원 등 제한된 대상으로만 운용이 되고 일반 소비자의 참여는 사실상 거의 없는 경우라면, 광고주(쿠팡 내지 CPLB 등) 측에서 직원들을 이용해 제품의 리뷰나 평점을 조직적으로 관리했다고 보여질 수 있고, 외부에 드러나는 경우 (위계에 의한) 부당고객유인 이슈가 제기될 수 있다는 점에서, 무료체험단에 CPLB나 쿠팡 등 관계사 임직원의 참여는 제한적으로 운용되는 것이 바람직해 보인다는 점을 참고”하라고 되어 있다.

지난 2021년 6월의 내부자료에는 “임직원 허위 리뷰를 쿠팡 앱에 고객이 작성한 실사용리뷰처럼 업로드하는 것에 관해서 ①쿠팡이 CPLB에게 허위리뷰 작성 용역을 위탁한 것으로 볼 수 있는지, ②양사간 본 업무에 관한 계약이 필요할지에 대해 법무 검토 부탁”하는 등 법적인 검토 후 치밀히 진행한 것을 알 수 있다.

요컨대 공정위의 쿠팡에 대한 과징금 부과는 플랫폼 사업이나 유통업의 특수성을 이해하지 못한 것이라는 쿠팡의 주장은 그 근거가 약할 뿐만 아니라 의도적으로 경쟁을 제한한 사안이기 때문에 나온 조치인 것이다. 이 문제는 플랫폼에만 해당하는 것이 아니고 오프라인 유통업이나 계약관계에도 적용되는 일반적인 것이라는 것을 알 수 있다.

데이터 처리의 방식이 바뀌었다

필자는 플랫폼 혁신과 경쟁제한성의 핵심이 많은 데이터의 처리 및 운용, 또 집적이 이익 또는 규모의 경제와 네트워크 효과에 따른 이익이라고 지적했다. 데이터의 취득과 처리, 운용의 변화를 보아야 한다. 아마존, 구글, 마이크로소프트 등이 클라우드 서비스를 적극적으로 전개함에 따라 데이터센터는 기존 집중형 정보처리 체계에서 분산/병렬 처리 방식을 통해 비용절감을 가져왔다.

특히 최근 인공지능(AI)에 의한 정보처리는 정보처리와 그를 수행하는 반도체 등 산업생태계의 변화를 가져오고 있다. 문제는 AI에 의한 데이터처리는 알고리즘의 블랙박스적 성격을 더욱 강화시킨다는 것이다. 중앙집중식 데이터처리방식은 IBM 등이 표준화한 것으로 중앙제어장치(CPU: Central Processing Unit)를 통해 이루어지는데, 한 번에 하나의 명령을 수행하기 때문에 작업이 순차적으로 진행된다. 이 방법을 통해 대용량 데이터를 처리한다면 매우 많은 CPU가 필요할 뿐만 아니라 처리 속도를 빠르게 하는 것도 한계가 있다.

반면 분산/병렬방식은 분산과 병렬 두가지 요소로 구성된다. 분산처리는, 기존 중앙에 하나의 컴퓨터 또는 서버에서 프로세스를 순차적으로 처리하는 방식 대신 네트워크에서 원격 컴퓨터와 통신하면서 하나의 목적을 위해 여러 서버에서 연산을 처리하도록 만든 시스템이다. 분산 처리를 위해서 정렬/탐색하는 프로그램을 사용하여 복잡하고 큰 데이터를 여러 개의 작은 데이터로 나눠 각각을 하나의 단순한 문제, 즉 큰 문제를 작은 여러 문제로 나눠 단순화하고 다시 각각을 합쳐서 큰 문제의 답을 도출해내는 것이다. 여기서 중요하게 되는 문제가 병렬성(Parallelism)이다. 큰 데이터를 작은 데이터로 나눌 때 각 문제를 해결하는 데 사용하는 데이터가 서로 독립적이어야 하는 것이다. 아마존이 데이터를 다루는 과정에서 축적한 노하우, 즉 데이터 처리 방식의 혁신 원천은 바로 데이터 처리의 분산/병렬 처리 방식에 있는 것이다.

한편 인공지능(AI)은 분산/병렬처리 방식으로 대용량 데이터 처리가 가능하였기 때문에 재발견되었다. 1950년대 기계학습(ML: Machine Learning) 개념이 정립되었지만 기존의 컴퓨팅은 대용량 데이터 처리에 한계가 있었지만 분산/병렬 처리 방식으로 비로소 꽃을 피우게 되었다. 알파고와 이세돌의 바둑 대결을 통해 인공지능의 가능성을 생생하게 보게 되었다. 기계학습의 핵심은 이미 존재하는 데이터들의 관계를 기계가 패턴을 익혀 결과값을 도출하는 것이다.

병렬처리에서 데이터가 오염되면

기존의 중앙제어장치(CPU)는 순차적으로 데이터를 처리하는데 반해 그래픽제어장치(GPU: Graphics Processing Unit)는 병렬처리가 가능한 방법이었다. GPU는 게임의 이미지 처리를 위해 개발된 것으로, 기존 데이터에서 나온 결과값을 그것이 나오는 논리적 관계에 주목하기보다 하나의 그림과 같은 결과값으로 보는 방식이다. 이로 인해 데이터 처리에서 데이터나 그 전의 학습결과가 사회적 편견 등으로 오염될 경우 우리가 생각하지 못하는 결과를 가져올 수 있다. 요컨대 데이터 값의 인과관계보다는 데이터들의 상호관계에서 나오는 결과에 주목하기 때문에 알고리즘의 블랙박스성이 더욱 강화되는 것이다. 기계학습을 통한 인공지능은 생성형 사전학습 전환 (GPT: Genertive Pre-trained Transformer) 챗봇, 즉 챗GPT로 진화하여 스스로 데이터를 학습하는 단계로 발전(대용량 언어 처리 모델 LLM: Large Langugage Model 처리)하고 있다.

알고리즘, 인공지능, 챗GPT의 핵심은 데이터다. 많은 데이터를 어떻게 수집하고 얼마나 빠르게 처리할 것인지가 관건이다. 특히 인공지능과 챗GPT의 경우 데이터의 인과관계, 논리적 관계를 무시하고, 그 결과값만 주목하기 때문에 데이터가 오염되어 있거나 인위적으로 가공될 경우 심각한 문제가 될 수 밖에 없다. 즉, 데이터 거버넌스(Data Governance) 문제가 대두되는 것이다.

데이터 거버넌스란 데이터를 수집하고 다루는데 있어서 지켜야 것들을 말한다. 이것은 데이터의 보안, 개인정보 보호, 정확성, 가용성, 사용성을 보장하기 위해 수행하기 위해 필요한 것이다. 여기에는 데이터를 취급하는 사람이 취해야 하는 조치, 따라야 하는 프로세스, 데이터의 전체 수명 주기 동안 이를 지원하는 기술이 포함된다. 데이터 품질은 일반적으로 정확성, 완전성, 일관성, 시의성, 타당성, 고유성을 가져야 한다. 만일 인위적으로 의도를 가지고 가공된 데이터에 의한 작업이 진행된다면 데이터 처리의 가장 기본적인 원칙을 위배하는 것이다. 유럽연합은 지난 2023년 9월 24일 유럽 데이터 전략에 따라 제시된 '데이터 거버넌스 법'(DGA)을 발효시켜 데이터를 처리할 때 지켜야 하는 것을 명확히 하였다. 데이터는 사회적 자산이므로 그 자산을 배타적으로 이용하여 활용할 경우 타인의 재산권과 개인의 자유를 침해할 가능성이 있기 때문이다. 이런 관점에서 볼 때 쿠팡이 알고리즘에 인위적으로 개입하여 자신들에게 유리하게 하였다는 것은 심각한 문제이다.

쿠팡에서 품목을 검색하면, 다음날까지 배송을 보장하는 로켓배송 혹은 로켓프레시 상품이 상단에 뜬다고 하는데, 이에 공정위는 쿠팡 측이 '인위적 개입'을 했다고 의심한다.

쿠팡은 데이터를 어떻게 했나

쿠팡은 첫째, 데이터를 수집하는 과정에서 그 데이터가 누구의 것인지 전혀 고려하지 않았다. 필자는 오프라인의 경우 입점업체의 고객 관련 데이터, 구매상품의 특성, 연령, 성별, 지역별 특성 데이터는 원래 입점업체의 것이라고 지적하였다. 이를 바탕으로 입점(제조)업체는 매매 흐름, 고객 특성, 상품선호도의 변화를 알 수 있고 신제품 개발에 이를 활용하는 것이다. 이런 데이터를 플랫폼이 이용할 때에는 그 대가를 제공하여야 함에도 불구하고 우리나라의 플랫폼은 당연히 자신의 소유로 여기며, 개인정보 보호를 이유로 입점업체에 제공하지 않는다. 이로 인해 입점업체는 새로운 상품개발 정보를 취득할 수 없고 그저 플랫폼의 요구에 응하는 종속적인 존재로 전락하고 만다. 이 문제의 해결을 위해서는 플랫폼과 입점업체가 계약을 통해 그 데이터의 활용여부 및 그 활용에 따른 결과를 어떻게 같이 이용할지 명확히 하는 것이 필요하다. 그러나 이에 대한 계약 조항은 없다.

쿠팡은 둘째, 취득된 데이터를 어떻게 활용했느냐 하는 것이다. 이 데이터를 통해 잠재적으로 기존 입점업체에 위협이 되는 자기브랜드(PB) 상품을 개발하고, 그 상품을 다른 제조업체에 위탁생산하게 하여 플랫폼에 입점시켰다. 이것은 한편으로는 소비자의 상품선택권을 늘리지만 다른 한편으로는 기존 업체를 경쟁에서 배제할 수도 있다는 것이다. 자기 소유 데이터가 자기를 퇴출시킬 가능성이 있는 상품개발에 사용되는 것을 허용하는 업체가 있을까? 데이터 거버넌스의 측면에서 볼 때 데이터의 공공성, 그리고 공익을 위한 활용이라는 원칙에 어긋나는 것이다. 그러나 이것은 쿠팡에만 해당되는 것이 아니고 이에 대한 규율체계가 아직 정립되지 않았기 때문에 논란이 있지만 위법이라고 단정할 수는 없다. 이를 규율하는 사회적 합의와 법제화가 필요한 이유이다.

공정위가 문제 삼은 것은 쿠팡이 셋째, 알고리즘에 인위적으로 개입하여 소비자의 다른 선택을 유도하였다는 것이다. 유통플랫폼에서 상품 검색 후 첫 화면이나 두번째 화면에 상품이 노출되는 것은 그 상품이 고객에 의해 선택될 가능성이 높다는 것을 의미한다. 쿠팡의 행위는 알고리즘 자체에 개입하여 고객을 유도하였다는 것이다. 이는 알고리즘의 투명성을 해치는 행위이다. 특히 알고리즘은 영업비밀일 수 있지만 알고리즘이 작동하는 기준, 즉 상품검색시 사용하는 기준은 임의적으로 변경되어서는 안 되는 것이다. 만일 변경이 있다면 왜 변경되었고 그 결과는 어떻게 달라지는지 고객이 알 수 있어야 한다.

쿠팡은 기준 자체에 인위적으로 개입하였고, 알고리즘이 고객의 평점 및 댓글에 의존한다는 것을 알면서 조직적으로 자사 직원을 동원하여 평점을 변경하여 경쟁 입점업체를 배제했다. 오프라인 유통업체가 이런 행위를 한 경우에도 공정위는 당연히 조사를 하고 조치를 할 사안이다. 결국 이번 공정위의 쿠팡에 대한 과징금 부과는 가장 일반적인 불공정 행위에 대한 조치이며, 플랫폼의 혁신성을 이해하지 못한 조치는 아니다.

쿠팡의 배송 솔루션 다이어그램. 쿠팡 AI 알고리즘이 여러 요소를 고려해 주문을 그룹화하고, 담당자를 결정하는 방식이라고 한다. 쿠팡은 인공지능을 활용해 담당 쿠팡친구를 배정한다고 밝혔다. 사진=쿠팡 뉴스룸

챗GTP시대에 더 우려되는 점은

이상에서 본 바와 같이 쿠팡에 대한 공정위의 조치는 알고리즘에 대한 회사의 인위적인 개입 문제로 데이터 거버넌스에 차원에서 볼 때 출발점에 관한 조치이다. 기계학습과 인공지능. 챗GPT의 등장은 대용량 데이터 처리에 따른 혁신과 함께 새로운 과제를 제기한다.

필자는 AI와 챗GPT는 데이터 처리를 통해 어떤 결과를 이끌어낼 때 그 인과관계를 보지 않고 상호관계에 주목하여 알고리즘의 블랙박스성을 강화시킨다고 주장했다. 은행의 신용평가를 예를 들어 보자. 어떤 개인이 은행의 신용평가시스템에 의해 대출금리가 제시되었을 때 은행은 최소한 어떤 변수를 사용하였고 그 결과 나온 개인의 신용평가 등급과 대출금리 등을 설명할 의무를 진다. 신용평가시스템 자체는 은행의 노하우 또는 영업비밀이기 때문에 공개할 수는 없지만 소득, 소비, 그 동안의 연체기록 등등 다양한 변수를 사용하고 그 변경에 대해서는 감독당국에 보고하는 절차를 갖고 있다.

또한 평가시스템을 변경하는 경우도 마찬가지이다. 인위적으로 등급을 변경하면 안 된다. 또한 감독당국 등의 검증을 통해 동일한 조건으로 그 시스템에 따라 평가하면 동일한 결과가 나와야 한다. 설명 가능해야 하는 것이다. 그러나 기계학습, 즉 AI를 활용하여 어떤 결과가 나왔을 때 우리는 그것을 체계적으로 설명할 수 없는 문제에 직면한다. “왜 이런 결과가 나왔나요?”라는 질문에 “기계가 그렇게 나오게 하였는데 왜 그런지 우리는 잘 모르겠습니다”라는 답변이 나온다면? 특히 데이터의 취득과 처리 과정에서 오염되거나 임의로 가공된 데이터가 사용되었다면 문제는 더욱 심각해진다. 데이터 거버넌스가 EU에서 법제화된 이유는 바로 여기에 있다.

이 문제는 챗GPT에서 더 증폭된다. 많은 연구자들이 지적하듯이 챗GPT는 정교하고 방대한 ‘단어 시퀀스 예측 및 생산 모델’로서 기능할 뿐, 세계의 수많은 개체들과 그들 간의 관계, 이에 대한 개념 체계를 이해하지는 못한다. 오로지 언어 데이터를 통해 훈련받은 모델은 언어 밖을 ‘상상’하거나, 비언어적 개념체계를 ‘이해’할 수 없는 것이다.

얼마전 서울에서 열린 한 컨퍼런스(6월 12일 한겨레신문 주최 ‘제3회 사람과 디지털포럼: ‘사람 넘보는 인공지능(AI), 인간 가치도 담아낼 수 있을까?’)에서 테드 창(T. Chang)은 “인공지능은 ‘의도’와 ‘지능’이 없다"고 말했다. 강아지와 아기는 말할 수 없거나 서툴러도, 반가운 마음을 사람에게 전달할 수 있지만 챗GTP는 아무 것도 느낄 수 없고 아무것도 원하지 않는다. 챗GTP는 감정을 전달하려는 의도가 없기에 언어를 사용한다고 볼 수 없다는 것이 테드 창의 견해다. 테드 창은 ‘지능’을 ‘기술을 습득하는 능력’이라 봤다. 알파제로(구글의 체스 인공지능)는 네 시간 동안 1천만 번을 연습해야 어느 수준에 다다를 수 있지만, 인간 체스 선수는 알파제로보다 약 1천배 적은 몇천 번 만에 같은 수준에 도달할 수 있다고 설명했다. 지능이 없는 인공지능은 단시간 안에 비인간적으로 많은 연습을 할 수 있을 뿐이라는 것이다. 테드 창은 “(우리가 말하는 인공지능은) 인공기술의 시연에 가깝다”며 ‘인공지능’ 대신 ‘응용 통계’라는 용어를 제안했다.”(한겨레신문 2024. 6.13.)

챗GTP는 오염된 데이터를 사용하지 않는 등 데이터 거버넌스를 준수한다고 할지라도 그 작업의 맥락을 고려하지 않기 때문에 이에 사람의 판단과 개입이 필요할 수도 있다. 인공지능, 챗GPT에 대해 윤리적 문제가 대두되는 이유가 여기에 있다.

쿠팡의 경쟁제한성을 넘어서 던질 질문들

우리나라도 이 사안을 주목해야 한다. 대표적 플랫폼 회사, 쿠팡에 대한 공정위의 조치는 데이터의 인위적 사용이 가져오는 경쟁제한성의 문제를 지적한 것으로 인공지능과 챗GPT까지 나아간 것은 아니다. 이 문제를 경쟁제한의 관점에서 어떻게 다루어야 하는가뿐만 아니라 사회적 효과와 부작용 등을 어떻게 규율할지 질문을 던져야 하는 것이다. 이에 대해 확정된 답은 없고 활발한 논의를 통한 사회적 합의가 필요하다.

대용량 데이터처리에서 분산/병렬처리 시스템이 도입되고 인공지능과 챗GPT의 등장으로 데이터처리과정에서 전력을 많이 사용하는 문제도 발생한다. 과도한 전력의 사용은 기후위기와 같은 ESG 과제를 우리에게 제기한다. 이 문제도 앞으로 우리가 관심을 가져야 할 부분이다.

이용우는 제21대 국회의원을 지냈다. 주로 정무위원회와 연금개혁특위 등에서 기업의 지배구조, 대기업구조조정 과정에서 발생하는 공정거래 이슈 관련 입법 활동을 많이 했다. 아울러 기후위기 등 대전환의 시대에 주목하여야 하는 ESG 제도 정립에 대해 21대 국회에서 최초로 문제제기하고 제도화하기 위한 활동을 하였다. 국회의원 전에는 현대그룹, 한국투자금융지주, 한국투자신탁운용 총괄CIO, 인터넷전문은행인 카카오뱅크 공동대표 등을 지냈다. 서울대학교 경제학과, 동대학원 석박사 학위를 보유하고 있고, SAIS(School of Advanced International Studies), Johns Hopkins University Visiting Scholar(방문학자)를 역임했다.

쿠팡 과징금-③AI는 ‘의도’와 ‘지능’이 없다고?? 관리는 사람이 하는데!!

[이용우의 경제 더하기]쿠팡은 알고리즘의 기준을 공개해야기준 공개가 인위적개입 막을 수 있어나아가 '데이터 거버넌스' 구축 고민해야챗GTP시대에서 발생할 '데이터 문제'도

[이용우의 경제 더하기]
쿠팡은 알고리즘의 기준을 공개해야
기준 공개가 인위적개입 막을 수 있어
나아가 '데이터 거버넌스' 구축 고민해야
챗GTP시대에서 발생할 '데이터 문제'도