“소파 옆 빨간 책 찾아줘”…GIST, 3D 공간 이해 AI 개발

송민섭 기자(song.minsub@mk.co.kr) 2026. 4. 2. 10:33
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

광주과학기술원(GIST)이 사람이 말로 설명한 물체를 3차원 공간에서 정확히 찾아내는 인공지능 로봇 기술을 개발했다.

기존처럼 단순히 물체의 이름이나 색만 인식하는 수준을 넘어, 주변 사물과의 위치 관계까지 종합적으로 이해하는 기술이다.

김의환 교수는 "로봇이 단순한 물체 인식을 넘어 주변 맥락과 공간 관계까지 이해하도록 한 기술"이라며 "별도의 추가 학습 없이 새로운 환경에도 적용 가능해 실내 서비스 로봇 상용화에 중요한 기반이 될 것"이라고 설명했다.

음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

긴 문장 그대로 이해
색·위치·관계까지 분석
기존 대비 2배 성능
탐색 정확도 크게 향상
광주과학기술원 AI융합학과 김의환 교수 연구팀이 ‘Context-Nav(컨텍스트 내비게이션)’ 기술을 개발했다. AI융합학과 김의환 교수(왼쪽) , 장원식 석박통합과정생. [광주과학기술원]
광주과학기술원(GIST)이 사람이 말로 설명한 물체를 3차원 공간에서 정확히 찾아내는 인공지능 로봇 기술을 개발했다. 기존처럼 단순히 물체의 이름이나 색만 인식하는 수준을 넘어, 주변 사물과의 위치 관계까지 종합적으로 이해하는 기술이다.

GIST는 AI융합학과 김의환 교수 연구팀이 ‘Context-Nav(컨텍스트 내비게이션)’ 기술을 개발했다고 밝혔다. 이 기술은 사람이 “소파 옆 테이블 위 빨간 책”처럼 길게 설명하면, 로봇이 이를 3차원 공간 정보로 해석해 목표를 찾아가는 방식이다.

기존 로봇은 ‘강화학습(Reinforcement Learning)’ 방식에 의존해왔다. 이는 시행착오를 반복하며 최적 행동을 찾는 방법으로, 많은 데이터와 시간, 비용이 필요하다. 또 짧은 단어 중심의 정보만 활용해 긴 문장의 맥락을 제대로 이해하지 못하는 한계가 있었다.

연구팀은 이러한 문제를 해결하기 위해 문장 전체를 분석하는 방식을 도입했다. 로봇은 RGB 카메라와 깊이 센서를 통해 주변 환경을 인식하고, 설명과 일치할 가능성이 높은 위치를 점수화한 ‘가치지도(Value Map)’를 만든다. 이후 점수가 높은 영역을 중심으로 이동하며 탐색한다.

특히 이미지와 텍스트를 동시에 이해하는 ‘비전언어모델(Vision Language Model·이미지와 문장을 함께 분석해 의미를 이해하는 AI 기술)’을 활용해 물체의 색과 형태뿐 아니라 주변 사물과의 위치 관계까지 정밀하게 검증한다.

성과도 뚜렷하다. 로봇의 목표 탐색 능력을 평가하는 시험에서 기존 강화학습 방식이 8.9% 성공률을 보인 반면, 이번 기술은 20.3%를 기록해 약 2.3배 향상된 성능을 보였다. 긴 문장을 그대로 활용할수록 이동 효율이 높아지고 오인식도 줄어드는 것으로 확인됐다.

김의환 교수는 “로봇이 단순한 물체 인식을 넘어 주변 맥락과 공간 관계까지 이해하도록 한 기술”이라며 “별도의 추가 학습 없이 새로운 환경에도 적용 가능해 실내 서비스 로봇 상용화에 중요한 기반이 될 것”이라고 설명했다.

이번 연구는 국제 학술대회인 CVPR 2026에서 발표될 예정이며, 향후 청소·배달·안내 로봇 등 다양한 분야에서 활용 가능성이 기대된다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지