‘하나를 가르치면 둘 배우는 AI’ 학습법 개발

울산=장지승 기자 2025. 5. 7. 10:48
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

UNIST, 데이터 정렬 필요 없는 멀티 모달 학습법 개발
데이터 구축 비용 절감, 의료·자율주행 등 적용 기대
이번 연구에서 선보인 synergestic multimodal learning 알고리즘. 한 모달리티(이미지 모달리티, 빨간색)를 학습할 때, 다른 모달리티(언어 모달리티, 회색)의 도움을 받아 학습을 진행할 시에, 두 모달리티의 정보를 모두 포함하는 학습(초록색)이 가능하다. 이를 통해, 모든 모달리티의 특성을 잘 반영하는 방향(검정색)으로 학습할 수 있다. 연구그림=UNIST
[서울경제]

인공지능(AI)에게 한 유형의 데이터만 가르쳐서, 다른 유형의 데이터 학습을 촉진 시킬 수 있는 학습 방식이 개발됐다. 서로 다른 유형의 데이터 학습에서 꼭 필요하다고 여겨지던 데이터 정렬 작업 없이도 학습이 가능해져 데이터셋 구축 비용 등을 절감할 수 있을 것으로 기대된다.

울산과학기술원(UNIST) 인공지능대학원 윤성환 교수팀은 데이터 정렬과 매칭 없이 하나의 데이터 유형만으로 다른 유형의 모델 학습을 촉진 시킬 수 있는 AI 멀티모달 학습 기술을 개발했다고 7일 밝혔다.

멀티모달 학습은 오디오, 이미지, 텍스트와 같이 서로 다른 데이터 모달리티를 결합해 통합적으로 이해하고 처리하는 학습법이다. 멀티 모달 학습을 위해서는 다양한 모달리티 데이터를 정렬하고 이에 대해 쌍을 이루는 라벨링 과정이 필요해 많은 시간과 비용이 소모된다. 또 명확히 짝지어진 데이터가 부족하면 성능이 저하되기까지 했다.

연구팀이 제안한 학습법은 짝지어지지 않은 데이터로도 멀티 모달 학습이 가능하다. 음성과 인간 표정을 함께 분석해 감정을 이해하는 AI 비서나, CT 영상과 진료 기록을 의사처럼 결합해 진단하는 의료AI 구축에 들어가는 비용과 시간을 절감할 수 있다.

연구팀은 텍스트 모델이 이미지 모델 학습을 돕거나, 오디오 모델이 언어 모델 성능을 높이는 등의 실험을 진행했고, 기존보다 높은 정확도를 기록하며 모달리티 간 학습 촉진 효과를 확인했다. 특히, 오디오와 이미지처럼 직접적인 연관성이 적은 조합에서도 AI의 성능 향상이 나타났다.

제1저자인 이재준 연구원은 “서로 관련 없어 보이는 오디오와 이미지 조합에서도 성능이 향상된 것은, 기존 멀티모달 학습 방식에 대한 고정관념을 깨는 흥미로운 결과”라고 설명했다.

윤성환 교수는 “정렬된 데이터셋 확보가 어려운 의료, 자율주행, 스마트 AI 비서 등 다양한 분야에서 활용 가능성이 높다”고 말했다.

이번 연구결과는 세계 인공지능 3대 학회인 ICLR(International Conference on Learning Representations) 2025에 채택됐다. ICLR 2025는 지난 4월 24일부터 28일까지 싱가포르에서 개최됐으며, 1만 1672편의 논문 중에서 3646편이 채택됐다.

울산=장지승 기자 jjs@sedaily.com

Copyright © 서울경제. 무단전재 및 재배포 금지.