알고리즘은 공정하다?..그 믿음은 위험하다 [정은진의 샌프란시스코 책갈피]
[경향신문]
정렬 문제 - 기계학습과 인간적 가치
브라이언 크리스천
실리콘밸리에서 흔히 들을 수 있지만 영어학원에서는 가르쳐주지 않을 것 같은 표현으로 ‘Garbage In, Garbage Out’이라는 말이 있다. 직역하면 쓰레기를 넣으면 쓰레기가 나온다는 말인데, 잘못된 데이터를 사용해서 만든 모델은 잘못된 결과를 낼 수밖에 없다는 뜻으로 쓰인다. 빅데이터, 인공지능(AI), 기계학습, 데이터마이닝, 이 모든 기술이 주어진 데이터의 품질이 나쁘면 좋은 성능을 내기 어렵다는 게 당연한 사실로 받아들여지고 있어서 그 현상을 짧게 줄인 이 표현을 자주 들을 수 있다. 예를 들어 오타가 많은 데이터를 이용해서 번역 소프트웨어를 만들면, 장갑이라고 번역해야 할 단어를 수갑이라고 번역할 수도 있는 것이다(실제로 목격한 일이다).
<정렬 문제 - 기계학습과 인간적 가치>는 인공지능이 푸는 문제가 우리의 삶과 밀접한 관련이 있을 때, 사회에 만연한 불평등이 인공지능이 만들어낸 결과물에 어떻게 투영되고 있는지 여러 가지 예를 통해 보여준다.
또 인공지능의 예측이 사람들의 판단을 대신하는 과정에서 알고리즘은 편견 없이 공정할 것이라고, 데이터를 기반으로 한 판단은 옳을 것이라고 믿는 게 얼마나 위험한지 알려준다.
사진 속의 얼굴을 자동으로 인식하는 소프트웨어는 피부색이 밝은 남성의 경우는 거의 오류없이 인식했지만, 피부색이 어두운 여성의 경우는 34.7%나 잘못 인식했다. 아마존에서 만들었던 이력서 평가 소프트웨어는 여자대학의 ‘여자’같이 여성과 더 밀접하게 관련된 단어가 이력서에 들어 있으면 점수를 더 낮게 주었다. 가석방 여부를 판단할 때 미국 여러 주에서 쓰이고 있는 소프트웨어는 흑인과 백인이 비슷한 범죄를 저질렀을 때 흑인의 재범 위험을 실제보다 더 높게 평가하는 경향이 있었고, 백인의 경우는 반대로 더 낮게 평가하는 경향이 있었다.
이런 문제가 생기는 원인은 인공지능 소프트웨어 개발자의 실수가 아니라, 주어진 데이터의 편향성(개발에 사용된 데이터에 백인 남성의 사진이 훨씬 많은 경우), 과거의 데이터를 사용해서 패턴을 오히려 고착시키는 오류(기존에 채용된 엔지니어들이 남자인 경우가 많으니 앞으로 채용할 엔지니어도 남자를 선호하게 되는 경우), 소프트웨어의 성능을 평가하는 방법의 오류(잘못 예측할 확률이 백인, 흑인 둘 다 비슷하도록 보정했고 그걸로 충분하다는 착각) 등 여러 가지다.
이 다양한 원인들 중 어느 것 하나 쉽게 고칠 수 없다. 아마존은 성별과 관련된 특정 단어들이 점수를 낮춘다는 것을 알고 그런 단어들을 사용하지 않도록 몇 차례나 수정하다가 결국 이 소프트웨어의 사용을 포기했다.
사람들은 종종 소프트웨어가 사람들이 흔히 가지고 있는 인종이나 성별에 대한 편견을 갖고 있지 않으니 사람보다 더 나은 판단을 할 수 있다고 믿는다. 정작 그 편견은 이미 데이터에 들어 있고, 그 데이터로 만든 모델에도 당연히 들어가 있는데도 말이다. 알고리즘이라면 무작정 옳을 것이라고 생각하는 무비판적인 자세가 인공지능의 잘못된 사용을 방관하는 결과로 이어질 수 있다.
정은진 샌프란시스코대학 부교수
Copyright © 경향신문. 무단전재 및 재배포 금지.
- “나도 부정선거라 생각했었다”···현장 보고 신뢰 회복한 사람들
- 국힘 박상수 “나경원 뭐가 무서웠나···시위대 예의 있고 적대적이지도 않았다”
- 늙으면 왜, ‘참견쟁이’가 될까
- 공영방송 장악을 위한 이사장 해임 “모두 이유 없다”…권태선·남영진 해임무효 판결문 살펴
- 내란의 밤, 숨겨진 진실의 퍼즐 맞춰라
- ‘우리 동네 광장’을 지킨 딸들
- 대통령이 사과해야 되는 거 아니에요? 사과해요, 나한테
- 독일 크리스마스 마켓에 차량 돌진…70명 사상
- [설명할경향]검찰이 경찰을 압수수색?···국조본·특수단·공조본·특수본이 다 뭔데?
- 경찰, 경기 안산 점집서 ‘비상계엄 모의’ 혐의 노상원 수첩 확보