AI 챗봇 이미지 데이터 훈련 비용 최소화할 실마리 찾았다
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
최근 다양한 분야에서 인공지능(AI) 심층 학습(딥러닝) 기술을 활용한 서비스가 급증하고 있다.
이재길 한국과학기술원(KAIST) 전산학부 교수 연구팀은 "심층 신경망 훈련 비용을 최소화할 수 있도록 훈련 데이터의 양을 줄이는 새로운 데이터 선택 기술을 개발했다"고 2일 밝혔다.
일반적으로 대용량의 심층 학습용 훈련 데이터는 강아지 사진이 고양이로 잘못 표기되는 '레이블 오류'를 포함한다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
이미지 분류 문제에서 정확도 22% ↑
최근 다양한 분야에서 인공지능(AI) 심층 학습(딥러닝) 기술을 활용한 서비스가 급증하고 있다. 챗GPT와 같은 거대 언어 모델을 훈련하기 위해서는 수백 대의 그래픽처리장치(GPU)와 몇 주 이상의 시간이 필요하다. 막대한 비용은 말할 것도 없다.
심층 신경망 훈련 비용을 최소화하는 방법에 대한 관심이 커지는 가운데 국내 연구진이 문제 해결의 실마리를 찾았다. 이재길 한국과학기술원(KAIST) 전산학부 교수 연구팀은 “심층 신경망 훈련 비용을 최소화할 수 있도록 훈련 데이터의 양을 줄이는 새로운 데이터 선택 기술을 개발했다”고 2일 밝혔다.
심층 신경망(Deep Neural Network)이란 입력층과 출력층 사이에 다중의 은닉층을 포함하는 인공 신경망을 말한다. 일반적으로 대용량의 심층 학습용 훈련 데이터는 강아지 사진이 고양이로 잘못 표기되는 ‘레이블 오류’를 포함한다. 최신 AI 방법론인 재레이블링(Re-labeling) 학습법은 훈련 도중 레이블 오류를 스스로 수정하면서 높은 심층 신경망 성능을 달성한다. 레이블 오류를 수정하기 위한 추가적인 과정들로 인해 훈련에 필요한 시간이 증가한다는 단점이 있다.
최근에는 핵심 집합 선별(coreset selection) 방식이 주목받고 있다. 이 방식은 중복되거나 성능 향상에 도움이 되지 않는 데이터를 제거해 훈련 데이터의 크기를 줄인다.
연구진이 개발한 기술은 재레이블링 학습법을 위해 집합 선별을 수행해 심층 학습 훈련 비용을 최소화할 수 있도록 해준다. 연구진은 특정 데이터의 레이블 오류 수정 정확도가 해당 데이터의 이웃 데이터 신뢰도와 높은 상관관계가 있음을 발견했다. 이웃 데이터의 신뢰도가 높으면 레이블 오류 수정 정확도가 커지는 경향이 있다. 이웃 데이터 신뢰도는 심층신경망의 충분한 훈련 전에도 측정할 수 있어서 각 데이터의 레이블 수정 가능 여부를 예측할 수 있다.
연구진은 이런 발견을 기반으로 전체 훈련 데이터의 총합 이웃 신뢰도를 최대화하는 데이터 부분 집합을 선별했다. 그런 다음 레이블 수정 정확도와 일반화 성능을 최대화하는 ‘재레이블링을 위한 핵심 집합 선별’을 제안했다.
연구진은 이미지 분류 문제에 대해 다양한 실제 훈련 데이터를 사용해 검증했다. 그 결과 레이블 오류가 없다는 가정에 따른 표준 학습법에서는 최대 9%, 재레이블링 학습법에서는 최대 21%까지 예측 정확도가 향상됐다. 학습에 필요한 시간도 단축했다. 이재길 교수는 “해당 기술이 기존 심층 학습 라이브러리에 추가되면 기계 학습과 심층 학습 학계에 큰 파급효과를 낼 수 있을 것”이라고 말했다.
이번 연구는 국제학술대회인 신경정보처리시스템학회(NeurIPS) 2023에서 올해 12월 발표될 예정이다.
- Copyright ⓒ 조선비즈 & Chosun.com -
Copyright © 조선비즈. 무단전재 및 재배포 금지.
- 홍콩 부동산 침체 가속화?… 호화 주택 내던지는 부자들
- 계열사가 “불매 운동하자”… 성과급에 분열된 현대차그룹
- 삼성전자·SK하이닉스, 트럼프 2기에도 ‘손해보는 투자 안한다’… 전문가들 “정부도 美에 할
- [르포] 일원본동 "매물 없어요"… 재건축 추진·수서개발에 집주인들 '환호'
- 10兆 전기차 공장 지었는데… 현대차, 美 시장에 드리워진 ‘먹구름’
- [인터뷰] 전고체 날개 단 CIS “캐즘으로 시간 벌어… 소재·장비 ‘두 마리 토끼’ 잡는다”
- “美FDA 승인 받았는데 회사 꼼수에 주가 곤두박질”... 분노한 개미들, 최대주주된다
- [르포] “혈액 받고 제조, 36시간 안에 투여” 지씨셀 세포치료제 센터
- [과학영재교육 갈림길]④ 김성근 포스텍 총장 “문제풀이 숙련공 거부…370명 원석 뽑겠다”
- 비트코인 급등에 엘살바도르, 90% 수익 '대박’