영상 몇 개만 보여줘도 로봇이 학습한다…KAIST, 피지컬 AI 원천기술 개발

최원우 기자 2026. 6. 7. 14:13
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

KAIST 유창동 교수팀 ‘VOTP’ 개발
ICML 2026 발표 논문 선정
왼쪽부터 Luu Minh Tung 박사과정, 김환희 석사과정, 이영환 석사, 유창동 교수./KAIST 제공

인공지능(AI) 로봇이 예시 영상 몇 개만 보고도 인간이 의도한 평가 기준을 스스로 배우는 기술이 개발됐다.

KAIST 전기및전자공학부 유창동 교수팀은 피지컬 AI 학습 기술 ‘VOTP(Video Optimal TransPort)’를 개발했다고 7일 밝혔다. 연구 성과는 오는 7월 서울 코엑스에서 열리는 국제머신러닝학회(ICML) 2026에서 주요 발표 논문으로 선정됐다. ICML은 인공지능·머신러닝 분야 최고 권위 학회 중 하나다. 올해 ICML에는 논문 2만3918편이 제출돼 6352편이 채택됐고, 이중에서도 168편만 발표 논문으로 선정됐다.

피지컬 AI는 AI가 로봇, 자율주행차, 드론처럼 현실 세계에 있는 기계와 결합해 직접 판단하고 행동하는 기술이다. 생성형 AI가 주로 글, 그림, 영상을 만드는 데 초점이 있다면, 피지컬 AI는 실제 기계를 움직여 작업을 수행하게 하는 것이 목표다.

피지컬 AI 개발의 난제 중 하나는 ‘보상함수’ 설계다. 보상 함수는 AI가 어떤 행동을 좋은 행동으로 판단할지 정하는 일종의 평가 기준이다. 예컨대 수술 로봇이 봉합을 하거나 자율 주행차가 교차로를 지날 때, 어떤 행동이 더 안전하고 적절한지 점수화하는 역할을 한다.

연구팀이 개발한 VOTP는 몇 개의 좋은 사례와 나쁜 사례 영상만 제시해도 AI가 인간이 의도한 기준을 학습하도록 한 기술이다. 비디오 기반 AI 모델이 영상 속 행동 패턴을 분석하고, 이를 바탕으로 평가되지 않은 다른 행동 데이터에도 기준을 적용하는 방식이다. 일일이 사람의 피드백을 받지 않아도 로봇이 인간 의도에 맞는 행동을 배울 수 있도록 한 것이다.

이 기술은 로봇 팔 제어, 휴머노이드 로봇, 자율 주행차, 스마트 팩토리, 드론, 수술 로봇 등 피지컬 AI 분야에 활용될 수 있다. 유 교수는 “생성형 AI 시대를 넘어 현실 세계에서 직접 행동하는 피지컬 AI 시대가 열리고 있다”며 “VOTP는 기계가 인간 의도와 선호를 효율적으로 학습하도록 하는 핵심 기술로, 로봇과 자율주행, 스마트 제조 산업 발전에 중요한 역할을 할 것으로 기대한다”고 말했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.