알고리즘은 공정하다?..그 믿음은 위험하다 [정은진의 샌프란시스코 책갈피]

정은진 샌프란시스코대학 부교수 2021. 10. 1. 14:30
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[경향신문]
정렬 문제 - 기계학습과 인간적 가치

브라이언 크리스천


실리콘밸리에서 흔히 들을 수 있지만 영어학원에서는 가르쳐주지 않을 것 같은 표현으로 ‘Garbage In, Garbage Out’이라는 말이 있다. 직역하면 쓰레기를 넣으면 쓰레기가 나온다는 말인데, 잘못된 데이터를 사용해서 만든 모델은 잘못된 결과를 낼 수밖에 없다는 뜻으로 쓰인다. 빅데이터, 인공지능(AI), 기계학습, 데이터마이닝, 이 모든 기술이 주어진 데이터의 품질이 나쁘면 좋은 성능을 내기 어렵다는 게 당연한 사실로 받아들여지고 있어서 그 현상을 짧게 줄인 이 표현을 자주 들을 수 있다. 예를 들어 오타가 많은 데이터를 이용해서 번역 소프트웨어를 만들면, 장갑이라고 번역해야 할 단어를 수갑이라고 번역할 수도 있는 것이다(실제로 목격한 일이다).

<정렬 문제 - 기계학습과 인간적 가치>는 인공지능이 푸는 문제가 우리의 삶과 밀접한 관련이 있을 때, 사회에 만연한 불평등이 인공지능이 만들어낸 결과물에 어떻게 투영되고 있는지 여러 가지 예를 통해 보여준다.

또 인공지능의 예측이 사람들의 판단을 대신하는 과정에서 알고리즘은 편견 없이 공정할 것이라고, 데이터를 기반으로 한 판단은 옳을 것이라고 믿는 게 얼마나 위험한지 알려준다.

사진 속의 얼굴을 자동으로 인식하는 소프트웨어는 피부색이 밝은 남성의 경우는 거의 오류없이 인식했지만, 피부색이 어두운 여성의 경우는 34.7%나 잘못 인식했다. 아마존에서 만들었던 이력서 평가 소프트웨어는 여자대학의 ‘여자’같이 여성과 더 밀접하게 관련된 단어가 이력서에 들어 있으면 점수를 더 낮게 주었다. 가석방 여부를 판단할 때 미국 여러 주에서 쓰이고 있는 소프트웨어는 흑인과 백인이 비슷한 범죄를 저질렀을 때 흑인의 재범 위험을 실제보다 더 높게 평가하는 경향이 있었고, 백인의 경우는 반대로 더 낮게 평가하는 경향이 있었다.

이런 문제가 생기는 원인은 인공지능 소프트웨어 개발자의 실수가 아니라, 주어진 데이터의 편향성(개발에 사용된 데이터에 백인 남성의 사진이 훨씬 많은 경우), 과거의 데이터를 사용해서 패턴을 오히려 고착시키는 오류(기존에 채용된 엔지니어들이 남자인 경우가 많으니 앞으로 채용할 엔지니어도 남자를 선호하게 되는 경우), 소프트웨어의 성능을 평가하는 방법의 오류(잘못 예측할 확률이 백인, 흑인 둘 다 비슷하도록 보정했고 그걸로 충분하다는 착각) 등 여러 가지다.

이 다양한 원인들 중 어느 것 하나 쉽게 고칠 수 없다. 아마존은 성별과 관련된 특정 단어들이 점수를 낮춘다는 것을 알고 그런 단어들을 사용하지 않도록 몇 차례나 수정하다가 결국 이 소프트웨어의 사용을 포기했다.

사람들은 종종 소프트웨어가 사람들이 흔히 가지고 있는 인종이나 성별에 대한 편견을 갖고 있지 않으니 사람보다 더 나은 판단을 할 수 있다고 믿는다. 정작 그 편견은 이미 데이터에 들어 있고, 그 데이터로 만든 모델에도 당연히 들어가 있는데도 말이다. 알고리즘이라면 무작정 옳을 것이라고 생각하는 무비판적인 자세가 인공지능의 잘못된 사용을 방관하는 결과로 이어질 수 있다.

정은진 샌프란시스코대학 부교수

Copyright © 경향신문. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?