UNIST, 환경 변화에도 안정적인 'AI 강화학습 기법' 개발
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
울산과학기술원(UNIST)은 윤성환 인공지능대학원 교수팀이 환경 변화에도 성능 저하 없이 안정적으로 작동하는 강화학습 기법을 개발했다고 21일 밝혔다.
연구팀에 따르면 강화학습은 정답을 미리 알려주는 지도학습과 달리 AI가 시행착오를 통해 얻는 보상을 최대화함으로써 문제해결 전략인 '정책'을 찾아간다는 점에서 더 인간에 가까운 학습방식이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

(울산=뉴스1) 조민주 기자 = 울산과학기술원(UNIST)은 윤성환 인공지능대학원 교수팀이 환경 변화에도 성능 저하 없이 안정적으로 작동하는 강화학습 기법을 개발했다고 21일 밝혔다.
연구팀에 따르면 강화학습은 정답을 미리 알려주는 지도학습과 달리 AI가 시행착오를 통해 얻는 보상을 최대화함으로써 문제해결 전략인 '정책'을 찾아간다는 점에서 더 인간에 가까운 학습방식이다.
하지만 기존 강화학습은 학습하지 않은 낯선 환경에서는 성능이 급격히 떨어지는 한계가 있었다.
연구팀은 누적 보상의 민감도를 낮추는 학습법을 제안했다. 행동 변화에 따른 누적 보상 값의 변화가 지나치게 커지지 않도록 정책 파라미터 공간에서 누적 보상의 곡면을 평탄하게 만드는 학습 전략이다.
기존 방식은 자율주행차가 눈길에서 감속 타이밍을 살짝 놓치면 큰 보상 손실로 이어져 전체 성능이 무너졌지만, 제안된 방식은 정책이 조금 바뀌어도 성능이 일정하게 유지된다.
실제 로봇의 마찰 조건이나 무게 등 물리적 요소를 변화시킨 상황에서 새롭게 제안된 학습 기법은 평균 보상 유지율이 80~90%에 달하며 높은 수준의 안정성과 강인함을 입증했다.
반면 기존의 학습법은 동일한 조건에서 평균 보상이 절반 이하로 감소하는 등 성능 유지에 한계를 드러냈다.
제1저자인 이현규 연구원은 "강화학습 파라미터 공간에서 누적 보상의 민감도를 낮추기 위해 지도학습 분야에서 사용되던 SAM(Sharpness-Aware Minimization) 기법을 차용해 이 같은 학습법을 개발했다"고 설명했다.
지도학습에서는 AI모델이 정답에서 벗어난 정도를 계산하는 '손실함수'를 기준으로 학습이 이뤄지는데, SAM은 이 손실이 갑자기 크게 튀지 않도록 완만하고 평평한 구간(flat minima)을 찾는 방식이다.
연구팀은 이 개념을 강화학습에 맞게 확장해, 손실 대신 누적 보상이 급격히 변하지 않도록 학습 경로를 조정했다.
윤성환 교수는 "높은 수준의 일반화 성능을 갖는 강화학습 모델이 필요한 로보틱스, 자율주행 등에 활용될 것"이라고 기대했다.
연구 수행은 정보통신기획평가원, 한국연구재단, UNIST의 지원을 받아 이뤄졌다.
이 기법은 세계 3대 인공지능 학회인 ICLR의 구두 발표 논문으로 채택됐다. 이는 전체 1만1672편의 제출 논문 중 2%(207편) 이내에 속한 것이다. ICLR 2025는 4월 24일부터 28일까지 싱가포르에서 열린다.
minjuman@news1.kr
Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.
- 개 산책시킨다더니 상간녀와 호텔 간 남편…키즈카페서 상간남 만난 아내
- 13년간 영안실서 女 나체 시신 수백장 찍은 日경찰…"성욕 채우려"
- "술집 주모와 바람난 남편 개처럼 잡은 신사임당…율곡도 아버지 무시"
- "아들과 안 친한 시어머니, 며느리인 저에게 화합시켜 달라고 하네요"
- "치과서 다른 치아 잘못 깎아 발치 위기"…인지 기능 장애 환자의 호소
- "뭐 어쩌라고?"…보복운전 따지자, 아이들 앞에서 코뼈 부러지는 폭행[영상]
- "눈물 마를 날 없었는데"…연금복권 1등-2등 21억 당첨자 '제2 인생'
- "나 장항준이야, 주소 보내"…'왕사남 800만' 돌파 속 단역배우가 전한 미담
- "암 투병 시한부 아내 위해 '킬' 당해주실 분"…남편 부탁에 300명 몰렸다
- 80세 아빠 김용건 "아들 벌써 여섯 살, 좀 커서 잘 따라다녀"