이루다 사태 막을까?..서울대 윤성로 교수팀 '바른 한글 AI 데이터셋' 발표

인공지능 학습용 데이터셋 발표
한국어 언어 모델의 사회적 편향 진단을 위한 데이터셋
바른 한글을 구사하는 인공지능 개발을 위한 의미 있는 첫걸음 기대

[이데일리 김현아 기자]

인공지능 기반 한국어 챗봇 ‘이루다’에서 포착된 성소수자 혐오 발언
(이미지 출처: 온라인 커뮤니티)

서울대 공과대학 전기정보공학부 윤성로 교수팀이 한글날을 맞아 지난 9일, 한국어 언어 모델의 사회적 편향(social bias) 진단을 위한 데이터셋 K-StereoSet을 공개했다.

인공지능의 사회적 편향은 미래 인공지능 연구에서 전 세계적으로 중요한 키워드로 대두됐다.

올해 초 인공지능 기반 한국어 챗봇인 ‘이루다’로부터 성소수자, 인종, 장애인 등에 대한 차별 및 혐오성 표현이 발견되어 화제가 된 바 있다. 개인정보보호위원회는 4월 28일 이루다를 개발한 스캐터랩에 대해 총 1억330만원의 과징금·과태료 처분을 내렸다.

이루다 혐오발언은 학습용 데이터 자체 문제

특히 이 과정에서 인공지능(AI)의 바른 언어를 도울 학습용 데이터의 편향성을 걸러주는 기술 개발이 중요해졌다.

‘이루다’의 혐오 발언은 AI가 편향성을 가중한 것(지어낸 것)이 아니라, 카카오톡에 있는 사람의 발언으로 확인된 이유에서다. 개인정보보호위에 따르면 이루다는 20대 여성의 카카오톡 대화문장 약 1억건을 응답 데이터베이스(DB)로 구축하고, 이루다가 이 중 한 문장을 선택해 발화할 수 있도록 운영했다. AI가 현실세계에서 존재하는 카카오톡 대화 1억건 중 하나를 뽑아내는 일만 했다는 의미다. 송상훈 개인정보위 조사조정국 국장은 “이루다의 경우 이용자들이 말을 이상하게 걸어서 (카카오톡에 실재했던) 이상한 답변을 한 것으로 AI가 학습을 통해 평가를 가중한 게 아니다”라면서 “그래서 MS의 챗봇 테이와 다르다. 대단히 특별한 케이스”라고 설명했다.

같은 맥락에서 최근 대통령직속 4차산업혁명위원회와 과학기술정보통신부가 인간성(humanity)을 위한 인공지능(artificial intelligence, AI)의 3대 원칙 중 하나로 ‘인간의 존엄성 원칙’을, 10대 핵심요건 중 하나로 ‘다양성 존중’을 제시하였을 만큼 윤리적인 인공지능에 대한 중요성이 커지고 있다.

최근 자연어 처리(natural language processing) 분야의 근간이 되는 인공지능 기반 한국어 언어 모델에 대한 연구가 활발히 이루어지고 있으나, 이들의 사회적 편향을 진단할 수 있는 수단은 여전히 부족한 상황이다.

본 연구를 진행한 서울대학교 윤성로 교수 연구팀 (이미지 출처: 서울대학교)

4차위 위원장과 제자들, 바른 한글 사용위한 AI학습용 데이터셋 개발

이런 문제의식 하에 서울대 공대 윤성로 교수팀은 K-StereoSet이라는 바른 한글 사용을 위한 AI 학습용 데이터셋을 개발했다.

윤 교수는 대통령직속 4차산업혁명위원회 위원장이기도 하다.

영어 언어 모델의 사회적 편향을 진단하기 위해 MIT에서 공개한 ‘StereoSet’의 개발셋(development set)을 기반으로 한국적 현실에 맞추어 보완 개발한 것으로 지속적으로 확장될 예정이다.

약 4,000개의 샘플로 구성된 원본 데이터셋은 먼저 네이버 파파고 API를 통해 1차적으로 번역한 후 다수의 연구원이 독립적으로 번역 내용을 검수하였고, 원래의 샘플 양식과 취지를 보존하도록 후처리(post-processing)를 진행하여 구축됐다.

문장 내(intrasentence) 편향 진단 테스트와 문장 간(intersentence) 편향 진단 테스트 샘플
(이미지 출처: 서울대학교 윤성로 교수 연구팀)

데이터 내 사회적 편향의 분야는 성별, 종교, 직업, 인종 총 네 가지 항목으로 구성되어 있으며 편향성 진단을 위한 샘플 양식은 두 개의 카테고리로 분류돼 있다.

첫 번째는 문장 내 편향 진단 테스트를 위한 ‘intrasentence’ 양식이다.

빈칸 처리된 문장이 주어졌을 때 빈칸에 채워질 내용으로서 세 개의 보기 중 어느 것에 높은 점수를 부여하는지를 이용하여 진단한다. 예를 들어, 위의 왼쪽 예시처럼 한 문장 안에서 ‘심리학자’라는 직업의 사람이 ‘독선적’이라는 편향을 가지고 있는지를 확인할 수 있다.

두 번째는 문장 간 편향 진단 테스트를 위한 ‘intersentence’ 양식이다.

앞 문장(context)이 주어졌을 때 다음 문장으로서 세 개의 선택지가 주어지며 이들 중 어떤 문장에 높은 점수를 부여하는지를 이용하여 진단한다. 위의 오른쪽 예시처럼 사람이 ‘히스패닉’이라는 문맥이 주어졌을 때, 다음 문장에서 그 사람이 ‘불법적인 시민’이라는 편향을 가지고 있는지 확인할 수 있다.

연구를 주도한 송종윤 연구원은 “문장 내 편향 진단 샘플 중 ‘unrelated’ 라벨에 해당하는 문장은 문맥과 전혀 관계없는 단어가 빈칸에 들어가기 때문에 자동 번역 시 원문의 의미를 벗어나기 쉽다. 또한 문장 간 편향 진단 샘플의 보기 문장들은 context 문장을 고려하지 않는 경우가 발생하는 등의 특수한 상황들에 유의하며 변환을 진행했다”라고 덧붙였다.

연구 책임자인 윤성로 교수(4차산업혁명위원회 위원장)는 “인공지능 기반의 한국어 언어 모델이 고도화되고 사업화될수록 윤리성 확보 및 편향성 제거를 위한 노력이 핵심적이며, 한글날을 맞이하여 보다 바른 한글을 구사하는 인공지능 기술 개발을 위해 K-StereoSet이 작지만 의미 있는 첫걸음이 되기를 기대한다”라고 전했다.

김현아 (chaos@edaily.co.kr)