DGIST-스탠퍼드 공동연구팀, 연합학습 기반 새로운 의료 AI 모델 개발

강민호 기자(minhokang@mk.co.kr) 2024. 5. 3. 14:00
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

국내 연구진이 대규모 의료 인공지능(AI) 모델을 개발할 수 있는 학습 기술을 개발했다.

박상현 교수는 "이번 연구를 통해 여러 의료기관의 의료영상 데이터를 공유하지 않더라도 효과적으로 의료 AI를 학습하고 활용할 수 있도록 각 관심 장기들의 영역화를 수행하기 위한 기술을 개발할 수 있었다" 며 "의료영상 분석에 도움이 되고, 향후 대규모 의료AI 모델 개발에도 기여할 것으로 기대된다"고 밝혔다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

국내 연구진이 대규모 의료 인공지능(AI) 모델을 개발할 수 있는 학습 기술을 개발했다. 개인정보 문제로 대량 학습이 불가능한 의료 영상의 단점을 해결하는 것은 물론 기존 모델보다 우수한 성능을 낼 수 있는 기술이다.

대구경북과학기술원(DGIST)은 박상현 로봇및기계전자공학과 교수팀이 킬리안 폴과 에산 아델리 스탠퍼드대학 교수팀과 공동으로 연합학습 기법을 활용해 여러 의료기관에 분산된 의료영상 데이터를 효과적으로 학습해 신체 장기들을 정확하게 영역화할 수 있는 기술을 개발했다고 3일 밝혔다.

병원과 연구기관은 다양한 신체 장기 영상 데이터를 수집해 보관하고 있다. 그러나 AI 성능을 높이려면 이들 기관이 가진 데이터를 모두 통합해 학습하는 모델이 필요하다. 다만 의료 데이터는 개인 정보 유출의 우려로 한 곳에 모아 활용하기 어렵다는 문제가 있다. 개별 기관에 보관한 데이터 만을 활용하기에는 관심 영역이 크게 달라 다양한 장기의 데이터를 동시에 학습하는 것도 어려운 상황이다.

연구진은 서로 다른 장기의 데이터를 외부 유출 없이 효과적으로 활용할 수 있는 연합학습 기반 ‘다중 장기 영역화 모델’을 개발했다. 연합학습은 분산된 데이터를 직접 공유하지 않고도 AI에게 학습시킬 수 있는 기술이다. 그러나 연합학습은 분산 데이터의 정보를 추출하는 과정에서 정보가 손실되는 ‘망각(Catastrophic Forgetting) 현상이 일어나 실제 의료 AI에 적용하기 어려웠다.

연구진은 연합학습의 망각 현상을 해결하기 위해 ‘지식 증류(Knowledge Distillation)’ 방법을 사용했다. 모델에 사전 지식을 입력한 후 각 기관에서 갖고 있는 장기 영상을 영역화한 데이터를 함께 활용해 연합학습을 하는 방식이다.

개발된 AI 모델은 적은 파라미터(변수)와 연산량으로도 더 우수한 성능을 내는 것으로 나타났다. AI 모델의 성능을 검증하기 위해 7개의 서로 다른 영역화 데이터가 포함된 복부 데이터셋에 적용했다. 검증 결과, 기존 모델이 66.82%의 성능을 보였으나 새롭게 개발한 모델을 사용했을 때는 71%의 우수한 성능을 보였다.

박상현 교수는 “이번 연구를 통해 여러 의료기관의 의료영상 데이터를 공유하지 않더라도 효과적으로 의료 AI를 학습하고 활용할 수 있도록 각 관심 장기들의 영역화를 수행하기 위한 기술을 개발할 수 있었다” 며 “의료영상 분석에 도움이 되고, 향후 대규모 의료AI 모델 개발에도 기여할 것으로 기대된다”고 밝혔다.

DGIST 로봇및기계전자공학과 박상현 교수팀이 서버에서 의료영상 분석 중인 AI 모델을 확인하고 있다

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?