[이준기의 미래를 묻다] 인공지능은 중립적이지 않아..개발자 철학·의도 담겨

2021. 1. 25. 00:39
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI는 결국 사람이 개발하는 것
개발·학습 과정서 편견 발생
미국 법률AI, 흑인 불리한 편견
메커니즘 파악하고 이용해야


인공지능의 편견과 윤리

이준기 연세대 정보대학원 교수

최근 우리 사회는 한 중소기업에서 개발한 채팅형 인공지능 ‘이루다’를 두고 많은 논쟁을 겪었다. 내 기억으로는 우리나라에서 인공지능의 윤리와 편견 문제에 대하여 본격적으로 다루게 된 것은 처음이며, 향후 인공지능 의사결정의 수용성에 대하여 고민하게 되는 좋은 계기가 된 듯하다.

앞으로 인공지능으로 무장한 알고리즘 의사결정 시스템은 많은 부분에 있어서 우리 삶에 영향을 미칠 것이다. 이것이 단순하게 어떤 상품 또는 영화를 추천하는 문제라면, 그 추천대로 하든지 안 하든지 인간이 결정하면 된다. 하지만 이것이 대출의 결정이나 신용카드의 발급, 채용, 사람을 학습시키는 일, 병의 진단과 같은 우리 삶이나 운명과 관계되는 것이라면 문제가 다르게 된다.

알파고 이후 우리는 인공지능을 ‘사람을 능가하는 무엇’이라 여겼지만 사실 인공지능은 상식이 턱없이 부족하고 데이터에 의하여 좌우되는 등 여러 가지 문제점을 안고 있다. 따라서 우리가 인공지능을 제대로 이용하기 위하여서는 이런 ‘이세돌을 이겨버린 인공지능’과 ‘세 살 아이의 상식도 없는 인공지능’이 같은 것이라는 것을 이해하여야 한다. 즉 어느 분야에서 인간보다 나을 수 있고, 그 의사결정이 어떤 메커니즘으로 이루어지는 것을 알아야 향후 인공지능을 통한 더 좋은 의사결정을 내릴 수 있다.

인공지능은 결국 사람이 개발한다. 개발자의 데이터 선택과 알고리즘 적용에 의하여 많은 것이 좌우된다. 우리가 인공지능의 윤리와 편견을 지적하는 것 또한 이것에 달린 경우가 대다수다. 데이터 선택에 의한 편견과 윤리의 문제는 많이 다루어지는 문제다. 여기서는 어떻게 설계자의 의도와 철학에 따라 인공지능의 의사결정 시스템이 달라질 수 있으며, 이것이 어떻게 윤리의 문제로 연결되는가를 다루려고 한다.

이준기의 미래를묻다 그래픽=신용호

최근 미국에서는 사법 시스템에서 인공지능 이용에 관한 이슈가 많이 제기되곤 한다. 우리도 요즘 민감한 정치 문제에 대하여 사법권의 판단이 나면서 ‘일개 판사의 결정’으로 깎아내리는 사람이 있는가 하면, ‘정의의 구현’으로 환호하는 사람도 있다. 이렇듯 동일 사건에서 정치적 입장에 따라 사법권 판결에 민감하게 반응하게 되면서, 차라리 아무런 정치적 관점과 감성이 없는 인공지능이 판결하면 어떨까 하는 생각을 하는 사람이 늘어나게 되었다. 과연 인공지능은 항상 공명정대한 판결을 내려 줄 수 있을까.

2016년 미국의 프로퍼블리카라는 인터넷 언론(플리처상을 받았을 정도로 명성이 있다)은 ‘기계의 편견 (Machine Bias)’이란 기사에서 콤파스(COMPAS)라는 재범가능성을 예측하는 인공지능 시스템 분석 연구를 다루었다. 기사에 따르면 많은 미국의 판사들은 이 시스템을 바탕으로 보석을 허가하거나 심지어 형량을 결정한다고 알려져 있다. 이 연구에서 연구자들은 약 1만 명의 구속 수감된 사람들을 대상으로 실제로 재범을 얼마나 일으켰는지, 그리고 이 인공지능 시스템이 얼마만큼 그것을 정확하게 예측하였는가를 조사하였다. 이 기사가 큰 주목을 받았던 것은 연구 결과가 ‘인공지능 시스템이 흑인에 대한 불리한 편견을 드러내고 있다는 것을 보였다’고 주장하였기 때문이다.

“바블로 판사는 질이라는 절도범에 대한 판결에 대하여 변호사들과 합의를 하였다. 질은 1년의 징역형과 1년의 보호감찰을 받을 예정이었다. 하지만 바블로 판사는 질에 대한 콤파스 시스템의 재범 확률에 대한 점수가 아주 높다는 것을 발견하였고 형량을 2년으로 늘리고 보호감찰도 3년으로 선고하였다.”

이것은 그 기사에 나온 내용이다. 이렇듯 이 시스템은 판사의 의사결정에 중대한 영향을 미치고 있었는데, 이 시스템의 결정이 인종 편견을 드러내고 있었다면 심각한 문제가 아닐 수 없었다.

그렇다면 그 시스템은 디자인에 있어서 인종이라는 변수를 재범 확률 계산에 넣었기에 이런 편견이 있을 수 있다는 것인가. 그렇지 않다. 사실 이 시스템은 범죄 이력과 범죄에 대한 범죄자의 태도를 묻는 137가지 질문(‘당신은 당신의 범죄가 술이나 마약과 연관이 있다고 생각하는가’ ‘얼마만큼 당신은 당신의 가족들과 연락하면서 지내는가’ 등)에만 의존하고 있다. 그렇다면 왜 이 시스템이 흑인에 불리한 편견을 들어내고 있다고 말할까.

AI 콤파스가 예측한 인종별 재범 가능성

사실 이 시스템의 인종에 대한 재범 예측의 정확도의 차이는 64.9% 대 65.7%로서 거의 차이가 없다. (그래픽, 표 참조) 다만 차이가 있는 것은 위양성(false positive, 僞陽性)과 위음성이다. 여기서 위양성이 높다는 것은 재범을 저지를 것으로 예측하였으나 실상은 그렇지 않다는 것이다. 위음성은 재범을 저지르지 않을 것으로 예측하였으나 사실 재범을 저지른 케이스이다. 정확도는 이 두 개가 낮을수록 좋아진다. 인공지능의 디자인에 있어 위양성과 위음성은 이율배반의 관계를 갖는다. 한쪽의 리스크를 줄이려 할 때, 같은 정확도에서는 다른 쪽의 리스크는 상대적으로 늘어나게 된다. 각각의 리스크를 보자.

위양성의 리스크는 ‘재범을 안 할 사람을 재범할 것으로 예측하여 사회 격리를 더 시킬 리스크’라고 설명할 수 있다. 위음성의 리스크는 ‘사실 재범할 사람을, 안 할 것이라 여기고 사회에 내보내어 선량한 다른 사람들이 피해를 볼 리스크’를 말한다.

그렇다면 개발자가 보는 공정한 시스템이란 어떤 것이어야 할까. 만약 당신이 한 개인의 자유를 조금 더 속박하더라도 사회 안전이 더 중요하다고 생각한다면 위음성의 리스크를 중요시하여서 더 줄이려 할 것이다. 이것은 결과적으로, 통계적으로 인구대비 수감자 비율이 높고 재범률도 높은 흑인에게는 더 가혹한 의사결정 시스템이 되는 것이다. 반대로 개인의 자유가 우선시 되어 사회적 안전 비용이 희생되더라도 (즉 재범 가능성이 있더라도) 확실하지 않으면 사회에 편입시켜야 한다고 생각한다면 위양성을 중요시하여야 한다.

결국, 인공지능은 가치 중립적이지 않고 디자이너와 개발자의 철학과 신념이 반영될 수밖에 없다. 그리고 이러한 ‘주관적’ 공정성에 의하여 한쪽이 보기에는 인공지능의 편견이라는 것도 생길 수 있다는 것이다. 지금은 사법 시스템의 예를 들었지만, 현재 많이 이용되고 있는 채용, 의료진단, 주식 예측 등에도 똑같은 이슈가 생길 수 있다. 따라서 인공지능을 이용하여 의사결정을 내리는 사람은 데이터의 투명성과 함께 시스템 디자인의 요소를 잘 이해하여야 진정으로 도움되는 방향으로 인공지능을 이용할 수 있다.

■ 인공지능은 어떻게 편견을 갖게 되는가?

「 기본적으로 인공지능이란 인간에 의하여 설계되고 디자인된 것임으로 대부분의 편견은 인공지능의 개발과 학습에서 발생한다. 주요 요인 몇 개만 살펴보면,

1. 데이터 수집에서 보편적이지 못한 데이터가 사용된다.
예: 얼굴 인식 인공지능에서 흑인 여자에 대한 인식률이 백인 남자 인식률보다 현저히 떨어지는 것은 처음부터 학습 데이터에서 흑인 여자의 데이터가 비율적으로 적었기 때문이다. (이것은 단순하게 개발자가 조금 넣어서 그럴 수도 있지만 현 사회를 반영하기 때문일 수도 있다)
예: 채팅 인공지능의 학습에서 (아직 성숙하지 못한) 10대들이 주로 사용하는 사이트의 대화 데이터를 이용함으로써 소수자에 대한 차별 용어를 사용한다

2. 주어진 데이터 세트에만 최적화된 알고리즘이 사용된다.
예: 미국 데이터를 중심으로 개발된 유방암 진단시스템이 동양인에게 적용되었을 때는 체지방 비율 등 다른 요인에 의하여 진단 결과가 맞지 않을 수 있게 된다.

3. 설계자의 의도와 한정된 지식에 의하여 특정 변수가 사용 또는 배제된다.
예: 채용 결정 시스템에 학벌·출신 지역 변수를 넣는지 안 넣는지에 따라 다른 의사결정 모델이 만들어진다.

4. 모델의 최종 정확도 판정에 있어 한쪽 면이 강화되고 한쪽이 상대적으로 등한시 된다.
예: 위양성과 위음성의 상대적 중요 여부에 따라 의사결정 모델이 달라진다.

이준기 연세대 정보대학원 교수

Copyright © 중앙일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?