AI의 인종차별은 사람보다 더 은밀하고 견고하다

화자 인종 안 알려주고 성격·범죄 가능성 물었더니
흑인 영어 쓰는 사람을 ‘의심스럽다’ 낙인
이미 채용·신용평가 과정서 AI 활용돼 우려

2017년 개봉한 할리우드 영화 ‘겟 아웃’은 흑인 남자가 백인 여자친구의 집에 초대받은 뒤 벌어지는 은밀하고 암시적인 인종차별을 조명한 영화로, 아카데미 각본상을 받았다. 유피아이 코리아 제공

챗지피티(GPT) 등 최첨단 인공지능에서 명시적 인종 차별은 사라졌지만, 은밀한 차별은 여전하다는 연구 결과가 공개돼 논란이 일고 있다. 이들이 학습한 데이터는 인종·성·계급 등 사회에 만연한 차별과 혐오를 답습하고 있어 공정성에 대한 우려가 지속적으로 제기되어왔다. ‘정치적 올바름’에 대한 요구가 높아지면서 인종과 성에 대한 차별이 일부 개선되는 등 진전도 이뤄졌다. 하지만 기술적 시도를 통한 명시적 차별 억제에 집중되어 인공지능에 의한 은밀한 차별·편견은 은폐되고 견고해져 더 위험해졌다는 지적이다.

AI ‘차별의 고도화’ 현상

말하는 사람의 인종을 알려주지 않은 상태로 표준 영어를 사용할 때와 흑인 영어를 사용할 때, 챗지피티와 같은 거대언어모델은 어떻게 반응할까? 지난 3월 미국 앨런인공지능연구소, 스탠퍼드대 소속 연구원 등이 이같은 실험을 거쳐 ‘방언에 대한 편견으로 사람의 성격, 고용 가능성, 범죄 예측에 대한 인공지능의 판단 예측’이라는 제목으로 발표한 연구 결과는 충격적이다. 표준 미국 영어를 쓰는 경우에 견줘 흑인 영어를 사용하는 화자는 ‘의심스럽다’, ‘과격하다’ 등 부정적으로 낙인찍힐 가능성이 높았다. 질이 나쁜 일자리를 소개받거나 동일한 범죄라도 재판에서 중형을 선고받을 것으로 예측되었다.

채용·신용평가·사법 등 인간의 운명을 좌우하는 영역에서 이미 인공지능을 활용한 판단이 확산하고 있다. 언어에 기반해 판단하는 거대언어모델이 방언·사투리 등 미묘한 언어 차이에도 반응한다는 사실은, 인종·성별·계급에 따른 은폐된 차별이 각 영역에서 더욱 깊숙이 영향을 발휘할 수 있음을 의미한다.

인터넷에서 긁어모은 학습데이터에서 차별·혐오 등 ‘정치적으로 올바르지 않은’ 시각을 제거하기 위해 거대 기술기업은 ‘정렬’(alignment)이라는 방식을 사용해왔다. 신경망 내 수백만 개 매개변수의 연결을 인위적으로 재조정해서 인간의 가치와 상식에 맞도록 조정하는 방식이다. 이른바 윤리적 측면을 고려한 미세 조율인 셈이다. 하지만 이번 연구를 통해 “거대언어모델이 차별과 편견을 억제하기 위해 사용하는 ‘정렬’이 쉽게 무너질 수 있는 허술한 필터에 불과하다”는 점이 드러난 것으로 보인다.

연구의 공동저자인 발렌틴 호프먼 앨런 인공지능연구소 연구원은 “정렬을 위한 피드백 학습을 통해 모델에서 인종차별 문제를 해결해왔지만, 방언을 기반으로 하는 편견은 더 깊은 차원의 문제를 내포한다”고 짚었다.

규모가 클수록 차별도 강력

모델의 규모가 커질수록 은밀한 차별 감정도 강력해진다는 점도 눈길을 끈다. 언어모델의 성능은 학습 데이터의 양과 매개변수에 비례하는 것으로 알려져 왔다. 문제는 규모가 확대되면서 개발자들은 노골적이고 명시적인 인종차별을 억제하는 데만 집중해, 은밀한 차별은 더 확산할 수 있다는 점이다. 거대 기술기업들이 언론이나 논문에서 다룬 편견에만 주목하고 해결하려는 경향은 비용 효율성과도 깊은 연관이 있다. 다수의 사회과학자들은 명시적 차별보다 미묘한 성격의 인종 차별에 주목해 왔는데, 거대언어모델에서도 유사한 위험이 확인되고 있는 셈이다.

발렌틴 호프먼 등 공동 연구자들은 “진짜 중요한 점은 은밀한 편견이 정치적 올바름의 외피 아래 은폐되고 있다는 점”이라고 지적한다. 차별을 억제하고 공정하게 판단하기 위해 노력하는 사람들도 은연중에 미묘한 고정관념을 드러내는 경우가 많다. 이처럼 드러난 차별·혐오보다 인간 의식 속에 깊게 자리잡은 편견·고정관념은 더 위험하며 해결도 어렵다. 언어는 삶의 양식을 반영하는 거울이다. 인종·계급·지역별로 언어 사용도 서로 달라, 거대언어모델은 이를 포착해 더 깊고 은밀한 차별을 재생산할 수 있다.

문제는 거대언어모델

딥러닝에 기반한 거대언어모델의 한계를 지속적으로 비판한 게리 마커스 뉴욕대 교수는 “거대언어모델은 피상적인 통계치에 기반한 자동완성 기능에 불과하기에 인종 등 사람에 대한 이해나 상식이 부재하다”며 기존과 같은 방식의 통제나 안전망 수립을 넘어선 근본적 접근을 강조한다.

편견과 차별의 온상인 데이터 자체에 주목하고 비판적 검토를 강조하는 목소리도 있다. 에디오피아 출신 인지과학자 아베바 비르하네 아일랜드 트리니티컬리지 교수는 “거대언어모델을 떠받치고 있는 데이터에 무엇이 들어 있는지 질문하고 분석해야 한다”면서 “비판적 검토가 결여될 경우 인간 표현의 가장 낮은 공통분모인 잔인함·편견·적대감·기만성을 반영하는 모델로 이어질 것”이라고 경고한다.

그는 ‘기술적 해결책’에서 멈추지 않고 사람들의 ‘구체적인 삶의 경험’을 고려할 것을 촉구한다. 뉴질랜드 마오리족 커뮤니티가 사라져가는 자신들의 언어를 되찾기 위해 자체적으로 음성 기술을 개발하는 시도와 같이 개발 과정에서 배제된 소수자들이 더 많이 목소리를 내야 한다는 것이다.

한귀영 사람과디지털연구소 연구위원 hgy4215@hani.co.kr

한겨레

IT