DGIST-스탠퍼드 공동연구팀, 연합학습 기반 새로운 의료 AI 모델 개발

국내 연구진이 대규모 의료 인공지능(AI) 모델을 개발할 수 있는 학습 기술을 개발했다. 개인정보 문제로 대량 학습이 불가능한 의료 영상의 단점을 해결하는 것은 물론 기존 모델보다 우수한 성능을 낼 수 있는 기술이다.

대구경북과학기술원(DGIST)은 박상현 로봇및기계전자공학과 교수팀이 킬리안 폴과 에산 아델리 스탠퍼드대학 교수팀과 공동으로 연합학습 기법을 활용해 여러 의료기관에 분산된 의료영상 데이터를 효과적으로 학습해 신체 장기들을 정확하게 영역화할 수 있는 기술을 개발했다고 3일 밝혔다.

병원과 연구기관은 다양한 신체 장기 영상 데이터를 수집해 보관하고 있다. 그러나 AI 성능을 높이려면 이들 기관이 가진 데이터를 모두 통합해 학습하는 모델이 필요하다. 다만 의료 데이터는 개인 정보 유출의 우려로 한 곳에 모아 활용하기 어렵다는 문제가 있다. 개별 기관에 보관한 데이터 만을 활용하기에는 관심 영역이 크게 달라 다양한 장기의 데이터를 동시에 학습하는 것도 어려운 상황이다.

연구진은 서로 다른 장기의 데이터를 외부 유출 없이 효과적으로 활용할 수 있는 연합학습 기반 ‘다중 장기 영역화 모델’을 개발했다. 연합학습은 분산된 데이터를 직접 공유하지 않고도 AI에게 학습시킬 수 있는 기술이다. 그러나 연합학습은 분산 데이터의 정보를 추출하는 과정에서 정보가 손실되는 ‘망각(Catastrophic Forgetting) 현상이 일어나 실제 의료 AI에 적용하기 어려웠다.

연구진은 연합학습의 망각 현상을 해결하기 위해 ‘지식 증류(Knowledge Distillation)’ 방법을 사용했다. 모델에 사전 지식을 입력한 후 각 기관에서 갖고 있는 장기 영상을 영역화한 데이터를 함께 활용해 연합학습을 하는 방식이다.

개발된 AI 모델은 적은 파라미터(변수)와 연산량으로도 더 우수한 성능을 내는 것으로 나타났다. AI 모델의 성능을 검증하기 위해 7개의 서로 다른 영역화 데이터가 포함된 복부 데이터셋에 적용했다. 검증 결과, 기존 모델이 66.82%의 성능을 보였으나 새롭게 개발한 모델을 사용했을 때는 71%의 우수한 성능을 보였다.

박상현 교수는 “이번 연구를 통해 여러 의료기관의 의료영상 데이터를 공유하지 않더라도 효과적으로 의료 AI를 학습하고 활용할 수 있도록 각 관심 장기들의 영역화를 수행하기 위한 기술을 개발할 수 있었다” 며 “의료영상 분석에 도움이 되고, 향후 대규모 의료AI 모델 개발에도 기여할 것으로 기대된다”고 밝혔다.

매일경제

IT/과학

DGIST-스탠퍼드 공동연구팀, 연합학습 기반 새로운 의료 AI 모델 개발