KAIST, 인공지능 훈련비용 줄이는 새 데이터 기술 개발

2023. 11. 2. 11:07
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

KAIST는 전산학부 이재길 교수 연구팀이 인공지능(AI) 심층신경망 훈련 비용을 최소화할 수 있도록 훈련 데이터의 양을 줄이는 새로운 데이터 선택 기술을 개발했다고 2일 밝혔다.

일반적으로 대용량의 심층 학습용 훈련 데이터는 레이블 오류를 스스로 수정하면서 높은 심층신경망 성능을 달성한다.

이재길 교수팀이 개발한 기술은 레이블 오류를 스스로 수정하는 최신 재레이블링 학습법을 위해 핵심 집합 선별을 수행해 심층 학습 훈련 비용을 최소화할 수 있도록 해준다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

전산학부 이재길 교수 연구팀
“훈련 가속화 위한 획기적 방법”
이재길(왼쪽 세 번째) KAIST 전산학부 교수와 연구팀 [KAIST 제공]

KAIST는 전산학부 이재길 교수 연구팀이 인공지능(AI) 심층신경망 훈련 비용을 최소화할 수 있도록 훈련 데이터의 양을 줄이는 새로운 데이터 선택 기술을 개발했다고 2일 밝혔다.

일반적으로 대용량의 심층 학습용 훈련 데이터는 레이블 오류를 스스로 수정하면서 높은 심층신경망 성능을 달성한다. 예를 들어 강아지 사진이 고양이라고 잘못 표기된 경우 이를 수정하는 식이다. 하지만 레이블 오류를 수정하기 위한 추가적인 과정들로 인해 훈련에 필요한 시간이 더욱 증가한다는 단점이 있다.

막대한 훈련 시간을 줄이려는 방법으로 성능 향상에 도움이 되지 않는 데이터를 크기를 줄이는 핵심 집합 선별(coreset selection) 방식도 있다. 하지만 이 역시 훈련 데이터에 레이블 오류가 없다고 가정한 표준 학습법을 위해 개발됐다는 한계가 있었다.

이재길 교수팀이 개발한 기술은 레이블 오류를 스스로 수정하는 최신 재레이블링 학습법을 위해 핵심 집합 선별을 수행해 심층 학습 훈련 비용을 최소화할 수 있도록 해준다. 레이블 오류가 포함된 현실적인 훈련 데이터를 지원해 실용성이 매우 높다는 것이 연구팀의 설명이다.

또 이 교수팀은 특정 데이터의 레이블 오류 수정 정확도가 해당 데이터의 이웃 데이터의 신뢰도와 높은 상관관계가 있음을 발견했다. 이웃 데이터의 신뢰도가 높으면 레이블 오류 수정 정확도가 커지는 것이다.

연구팀은 이런 발견을 기반으로 레이블 수정 정확도와 일반화 성능을 최대화하는 ‘재레이블링을 위한 핵심 집합 선별’을 제안했다.

연구팀은 이미지 분류 문제에 대해 다양한 실세계의 훈련 데이터를 사용해 방법론을 검증했다. 그 결과, 레이블 오류가 없다는 가정에 따른 표준 학습법에서는 최대 9%, 재레이블링 학습법에서는 최대 21% 최종 예측 정확도가 기존 방법론에 비해 향상됐다. 모든 범위의 데이터 선별 비율에서 일관되게 최고 성능을 달성했다.

제1 저자인 박동민 박사과정 학생은 “이번 기술은 오류를 포함한 데이터에 대한 최신 AI 방법론의 훈련 가속화를 위한 획기적인 방법”이라면서 “다양한 데이터 상황에서의 강건성이 검증됐기 때문에, 실생활의 기계 학습 문제에 폭넓게 적용될 수 있어 전반적인 심층 학습의 훈련 데이터 준비 비용 절감에 기여할 것”이라고 했다.

연구팀을 지도한 이재길 교수는 “이 기술이 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층 학습 학계에 큰 파급효과를 낼 수 있을 것”이라고 말했다.

이번 연구는 최고권위 국제학술대회 ‘신경정보처리시스템학회(NeurIPS) 2023’에서 12월 발표될 예정이다. 박세정 기자

sjpark@heraldcorp.com

Copyright © 헤럴드경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?