KAIST, 인공지능 챗봇 이미지 데이터 훈련 비용 최소화 기술 개발

`재레이블링을 위한 핵심집합 선별' 방법론의 동작 개념도.(KAIST 제공)/뉴스1

(대전=뉴스1) 김태진 기자 = 국내 연구진이 인공지능 챗봇 이미지 데이터 훈련 비용을 최소화하는 기술을 개발했다.

한국과학기술원(KAIST)은 전산학부 이재길 교수 연구팀이 심층신경망 훈련 비용을 최소화할 수 있도록 훈련 데이터의 양을 줄이는 새로운 데이터 선택 기술을 개발했다고 2일 밝혔다.

일반적으로 대용량의 심층 학습용 훈련 데이터는 레이블 오류(예를 들어 강아지 사진이 `고양이'라고 잘못 표기된 경우)를 포함한다.

최신 인공지능 방법론인 재(再)레이블링(Re-labeling) 학습법은 훈련 도중 레이블 오류를 스스로 수정하면서 높은 심층신경망 성능을 달성하는데, 레이블 오류를 수정하기 위한 추가적인 과정들로 인해 훈련에 필요한 시간이 더욱 증가한다는 단점이 있다.

이재길 교수팀이 개발한 기술은 레이블 오류를 스스로 수정하는 최신 재레이블링 학습법을 위해 핵심 집합 선별을 수행, 심층 학습 훈련 비용을 최소화할 수 있도록 해준다.

이에 따라 레이블 오류가 포함된 현실적인 훈련 데이터를 지원하므로 실용성이 매우 높다.

이밖에 연구팀은 특정 데이터의 레이블 오류 수정 정확도가 해당 데이터의 이웃 데이터의 신뢰도와 높은 상관관계가 있음을 발견했다.

연구팀은 총합 이웃 신뢰도를 최대화하는 부분 집합을 찾는 조합 최적화 문제의 효율적인 해법을 위해 총합 이웃 신뢰도를 가장 증가시키는 데이터를 차례차례 선택하는 탐욕 알고리즘을 도입했다.

연구팀은 이미지 분류 문제에 대해 다양한 실세계의 훈련 데이터를 사용해 방법론을 검증했다.

그 결과 레이블 오류가 없다는 가정에 따른 표준 학습법에서는 최대 9%, 재레이블링 학습법에서는 최대 21% 최종 예측 정확도가 기존 방법론에 비해 향상됐고, 모든 범위의 데이터 선별 비율에서 일관되게 최고 성능을 달성했다.

또 총합 이웃 신뢰도를 최대화한 효율적 탐욕 알고리즘을 통해 기존 방법론에 비해 획기적으로 시간을 줄이고 수백만 장의 이미지를 포함하는 초대용량 훈련 데이터에도 쉽게 확장될 수 있음을 확인했다.

KAIST 연구팀. 왼쪽부터 KAIST 데이터사이언스대학원 최설아 석사과정, 박동민 박사과정, KAIST 전산학부 이재길 교수, 김도영 박사과정

박동민 박사과정 학생(제1 저자)은 "이번 기술은 오류를 포함한 데이터에 대한 최신 인공지능 방법론의 훈련 가속화를 위한 획기적인 방법ˮ 이라며 "다양한 데이터 상황에서의 강건성이 검증됐기 때문에 실생활의 기계 학습 문제에 폭넓게 적용될 수 있어 전반적인 심층 학습의 훈련 데이터 준비 비용 절감에 기여할 것ˮ이라고 말했다.

연구팀을 지도한 이재길 교수는 "이 기술이 파이토치(PyTorch) 혹은 텐서플로우(TensorFlow)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것ˮ이라고 했다.

KAIST 데이터사이언스대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 최설아 석사과정, 김도영 박사과정 학생이 제2, 제3 저자로 이번 연구에 참여했다.

이번 연구 성과는 최고권위 국제학술대회 `신경정보처리시스템학회(NeurIPS) 2023'에서 오는 12월 발표될 예정이다.

memory4444444@news1.kr

사회

KAIST, 인공지능 챗봇 이미지 데이터 훈련 비용 최소화 기술 개발