이용자가 원하는 '영상 속 그 순간' AI로 찾는다...KAIST, 이화여대와 기술 개발
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
'카메라가 다른 곳을 비추는 사이 사라진 물체는 무엇 인가요?'라는 복잡한 질문이 나오면 인공지능(AI)은 영상 속 상황을 보고 판단하는 것이 아니라, 언어 패턴에 의존해 '그럴듯한 답'을 추측하곤 한다.
이런 가운데 한국과학기술원(KAIST·총장 이광형) 연구진이 이런 한계를 해결하기 위해 영상 속 '중요한 순간(트리거 모먼트)'을 AI가 스스로 찾아내도록 하는 기술을 개발, 국제 AI 대회에서 우수성을 입증했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

'카메라가 다른 곳을 비추는 사이 사라진 물체는 무엇 인가요?'라는 복잡한 질문이 나오면 인공지능(AI)은 영상 속 상황을 보고 판단하는 것이 아니라, 언어 패턴에 의존해 '그럴듯한 답'을 추측하곤 한다. 기존 AI의 한계다. 이런 가운데 한국과학기술원(KAIST·총장 이광형) 연구진이 이런 한계를 해결하기 위해 영상 속 '중요한 순간(트리거 모먼트)'을 AI가 스스로 찾아내도록 하는 기술을 개발, 국제 AI 대회에서 우수성을 입증했다.
KAIST는 윤성의 전산학부 교수팀이 노준혁 이화여대 교수팀과 공동 연구로 컴퓨터 비전 학회 ICCV 2025에서 열린 인지 테스트 대회 영상 근거 기반 질의응답(Grounded Video Question Answering) 트랙에서 1위를 차지했다고 28일 밝혔다.
이번 인지 테스트 대회는 구글 딥마인드가 주관해 총 상금 5만 유로(약 8300만원)가 걸린 대회로, 영상·음성·텍스트 등 다양한 데이터를 종합 이해하는 멀티모달 AI 인지·추론 능력을 평가한다. 특히 실제 영상을 바탕으로 판단하는 능력이 핵심 평가 요소다.
KAIST 연구팀은 영상 전체를 무작정 분석하는 기존 방식과 달리, AI가 정답을 위해 꼭 필요한 핵심 장면을 먼저 찾아내도록 만드는 새로운 기술을 개발했다. 이 프레임워크를 연구팀은 CORTEX(Chain-of-Reasoning for Trigger Moment Extraction)라고 부른다.
연구팀의 시스템은 서로 다른 기능을 수행하는 세 모델이 순차적으로 작동하는 3단계 구조로 구성된다. 먼저 추론 AI(제미나이 2.5 프로)가 질문에 답하기 위해 어느 순간을 봐야 하는지 사고하고 트리거 모먼트 후보를 찾는다. 다음으로 객체 위치 찾기 모델(Molmo-7B)이 해당 순간 화면 속 사람·차·사물의 정확한 위치(좌표)를 파악한다. 마지막으로 추적 모델(SAM2)이 선택된 한 장면을 기준으로 앞뒤 시간대의 객체 움직임을 정밀하게 추적해 오류를 줄인다.
핵심 장면 한 컷을 정확히 찍고, 그 장면을 중심으로 정답 근거를 추적하는 방식 덕분에 영상 초반 오판이나 가려짐 같은 문제도 크게 줄었다.
총 23개 팀이 참여한 영상 근거 기반 질의응답 트랙에서 KAIST팀 SGVR Lab(Scalable Graphics, Vision & Robotics Lab)은 '고차 추적 정확도(HOTA)'지표에서 0.4968점을 기록, 2등 미국 콜럼비아대(0.4304점)를 압도하며 1위를 차지했다. 전년도 우승 기록 0.2704점보다도 약 두 배에 가까운 성과다.
이 기술은 실생활에서도 넓게 쓰일 수 있다. 자율주행차는 사고 위험이 있는 순간을 정확히 보고, 로봇은 주변 상황을 더 똑똑하게 이해한다. 또 보안·감시 시스템은 중요한 장면을 빠르게 찾아내고, 미디어 분석에서는 사람이나 사물의 행동을 시간 순서대로 정확히 추적할 수 있다.
김영준 기자 kyj85@etnews.com
Copyright © 전자신문. 무단전재 및 재배포 금지.
- LG전자, 신임 CEO에 생활가전 1등 이끈 류재철
- 기업 AI 학습 데이터, 법적 리스크 해소
- 네이버·두나무, AI·웹3 글로벌 선점 노린다...5년간 10조원 투자
- 누리호 실린 'KAIST K-HERO 큐브위성', 초소형 홀추력기 우주 검증 본격 착수
- 트럼프 “백악관 코앞서 피격당한 주방위군 2명 중 1명 사망”
- LG “내년 상반기 중 2500억원 규모 자사주 소각”
- 한화오션, HMM으로부터 컨테이너선 4척 수주…1조원 규모
- 한화오션 “폴란드 잠수함 아쉽지만 캐나다·중동 수출에 노력”
- 홍콩 아파트 화재, 사망자 94명으로 늘어... 80년만 '최악 참사'
- '캔 수프' 美 캠벨 임원 “우리 음식은 가난한 사람용... 난 안 먹어”