KAIST “달라진 데이터 환경에서도 AI 공정성 찾아낸다”

2023. 10. 30. 08:34
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI)의 편향성 문제가 대두되면서 공정성을 고려한 머신러닝 학습의 필요성이 커지고 있다.

이런 가운데 훈련이 아닌 실제 AI를 적용하는 달라진 데이터 환경에서도 AI가 공정한 판단을 내리도록 돕는 학습 기법이 국내 연구진에 의해 개발됐다.

일례로 과거에 특정 인종 위주로 채용하던 기관이 이제는 인종에 관계없이 채용한다면, 과거의 데이터를 기반으로 학습된 AI 채용 모델이 현대의 데이터에는 오히려 불공정한 판단을 내릴 수 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

-KAIST 전기및전자공학부 황의종 교수 연구팀
-과거 학습 상황과 달라진 새 데이터 환경에서도 AI 공정성↑
- 최고권위 국제학술대회 ‘ICML 2023’에 발표
KAIST 전기및전자공학부 황의종 교수 황의종 교수 [KAIST 제공]

[헤럴드경제=박세정 기자] 인공지능(AI)의 편향성 문제가 대두되면서 공정성을 고려한 머신러닝 학습의 필요성이 커지고 있다. 이런 가운데 훈련이 아닌 실제 AI를 적용하는 달라진 데이터 환경에서도 AI가 공정한 판단을 내리도록 돕는 학습 기법이 국내 연구진에 의해 개발됐다.

KAIST는 전기및전자공학부 황의종 교수 연구팀이 학습 상황과 달라진 새로운 분포의 테스트 데이터에 대해서도 편향되지 않은 판단을 내리도록 돕는 새로운 모델 훈련 기술을 개발했다고 30일 밝혔다.

최근 전 세계의 연구자들이 AI의 공정성을 높이기 위한 다양한 학습 방법론을 제안하고 있다. 대부분의 연구는 AI 모델을 훈련시킬 때 사용되는 데이터와 실제 테스트 상황에서 사용될 데이터가 같은 분포를 갖는다고 가정한다. 하지만 실제 상황에서는 이러한 가정이 대체로 성립하지 않는다는 지적이 제기돼왔다.

일례로 과거에 특정 인종 위주로 채용하던 기관이 이제는 인종에 관계없이 채용한다면, 과거의 데이터를 기반으로 학습된 AI 채용 모델이 현대의 데이터에는 오히려 불공정한 판단을 내릴 수 있다.

연구팀은 이러한 문제를 해결하기 위해, 먼저 ‘상관관계 변화(correlation shifts)’ 개념을 도입했다. 이를위해 기존의 공정성 학습 알고리즘이 가지는 정확성과 공정성 성능에 대한 근본적인 한계를 이론적으로 분석했다. 예를 들어 특정 인종만 주로 채용한 과거 데이터의 경우 인종과 채용의 상관관계가 강해, 현재 달라진 상관관계를 반영하기 어렵다는 점을 파악하는 것이다.

이를 바탕으로, 새로운 학습 데이터 샘플링 기법을 제안해 데이터의 편향 패턴이 변화해도 모델을 공정하게 학습할 수 있도록 하는 새로운 학습 프레임워크를 제안했다. 위 사례의 경우, 과거 데이터에서 우세하였던 특정 인종 데이터를 상대적으로 줄임으로써 채용과의 상관관계를 낮출 수 있는 식이다. 이미 사용되고 있는 공정한 학습 알고리즘이 위에서 설명한 상관관계 변화에 취약하다면 제안된 기법을 함께 사용해서 해결할 수 있다고 연구진은 설명했다.

KAIST 전기및전자공학부 노유지 박사과정 학생 [KAIST 제공]

제1 저자인 KAIST 전기및전자공학부 노유지 박사과정 학생은 “이번 연구를 통해 AI 기술의 실제 적용 환경에서, 모델이 더욱 신뢰 가능하고 공정한 판단을 하도록 도울 것으로 기대한다”고 밝혔다.

연구팀을 지도한 황의종 교수는 “기존 AI가 변화하는 데이터에 대해서도 공정성이 저하되지 않도록 하는 데 도움이 되기를 기대한다”고 말했다.

이번 연구에는 노유지 박사과정이 제1 저자, 황의종 교수(KAIST)가 교신 저자, 서창호 교수(KAIST)와 이강욱 교수(위스콘신·매디슨 대학)가 공동 저자로 참여했다. 이번 연구는 지난 7월 미국 하와이에서 열린 머신러닝 최고권위 국제학술 대회인 ‘국제 머신러닝 학회(ICML)’에서 발표됐다.

한편, 이 기술은 정보통신기획평가원의 지원을 받은 ‘강건하고 공정하며 확장가능한 데이터 중심의 연속 학습’ 과제와 한국연구재단 지원을 받은 ‘데이터 중심의 신뢰 가능한 인공지능’ 과제의 성과다.

sjpark@heraldcorp.com

Copyright © 헤럴드경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?