인공지능 학습용 데이터 구축해 난임 치료 솔루션 스타트업 발굴

조선희 기자 2022. 12. 20. 03:06
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

최근 정부 부처가 협업해 운영하는 창업경진대회, '도전-K스타트업' 왕중왕전 창업리그에 참여해 최우수상(중소벤처기업부장관상)과 상금 1억3000만 원을 함께 획득한 인공지능(AI) 스타트업 기업이 나왔다.

스타트업인 '카이헬스'가 난임 AI 솔루션 개발과 성능 확보를 위해 필수적인 대규모의 학습용 데이터를 자체적으로 구축하기에는 시간과 비용, 자원 등이 모두 부족했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

한국지능정보사회진흥원
최근 정부 부처가 협업해 운영하는 창업경진대회, ‘도전-K스타트업’ 왕중왕전 창업리그에 참여해 최우수상(중소벤처기업부장관상)과 상금 1억3000만 원을 함께 획득한 인공지능(AI) 스타트업 기업이 나왔다. 바로 ‘카이헬스’이다.

‘카이헬스’는 데이터 기반의 개인 맞춤형 난임 치료 인공지능 솔루션을 개발·운영하는 AI 전문기업이다. 이 솔루션에 적용된 AI 모델은 일반 난임 시술에 비해 15%의 높은 정확도를 자랑한다. 또한 우량 배아 선별과 함께 배아의 발달 과정도 데이터로 관찰할 수 있어 임신 성공률 향상과 더불어 임신 기간 동안의 배아의 상태 추적 관리에도 도움을 줄 수 있다.

이렇게 우수한 헬스케어 AI 서비스 개발과 성능 확보 이면에는 과학기술정보통신부와 한국지능정보사회진흥원(NIA)에서 추진한 인공지능 학습용 데이터 구축 사업이 있었다.

스타트업인 ‘카이헬스’가 난임 AI 솔루션 개발과 성능 확보를 위해 필수적인 대규모의 학습용 데이터를 자체적으로 구축하기에는 시간과 비용, 자원 등이 모두 부족했다. 그때마침 정부 지원 사업인 ‘인공지능 학습용 데이터 구축 사업’에 대해 알게 됐고, ‘태아 신생아 데이터’ 구축 과제를 경쟁 공모에서 수주 받아 필요한 난임 시술 배아 이미지 데이터(2만 건)와 태아 심박동 모니터링 데이터(2만2000건)를 구축해 활용할 수 있었다.

헬스케어 인공지능 학습용 데이터는 AI 허브(aihub.or.kr)를 통해 대한민국 국민이라면 누구나 안심존을 통해서 이용이 가능하도록 개방 중이다. 안심존은 민감정보가 포함된 데이터의 외부 반출 없이 AI 모델과 알고리즘 개발이 가능한 환경을 제공한다. 온·오프라인 모두 이용이 가능하며, 온라인 안심존에 32종의 헬스케어 데이터가 개방 중이다. 오프라인 안심존은 올해 서울 서초를 시작으로, 원주와 광주에 개소해 29종의 헬스케어 데이터가 개방돼 있다.

하지만 다른 데이터들에 비해 헬스케어 데이터는 개인의 민감한 정보가 포함된 만큼 데이터 구축부터 개방, 활용에 이르기까지 까다로운 절차가 존재한다.

헬스케어 데이터를 구축 혹은 이용하고자 하는 기관·개인은 소속 기관의 의학연구윤리심의위원회(IRB)의 심의를 거쳐 동의를 득한 후에야 구축과 이용이 가능하다. 이러한 절차가 짧으면 2주에서부터 길게는 몇 달이 걸리다 보니, 데이터 이용에 불편을 초래했다.

이러한 불편을 해소하기 위해, 올해에는 GAN(Generative adversarial network) 기술을 활용해 헬스케어 인공지능 학습용 데이터 3종을 합성데이터 형태로 구축하고 있다. 합성데이터는 실제 데이터를 본떠 가상의 데이터를 만드는 방식이기에 개인정보 보호라는 법적인 측면과 생명 윤리적 측면에서의 모든 이슈가 사라져, 헬스케어 데이터 이용 활성화 촉진에 크게 기여할 것으로 기대된다.

‘생성적 대립 신경망’이라 불리는 GAN 기술은 실제와 가까운 영상 혹은 이미지를 자동으로 만들어 내는 기계학습(ML) 방식 중 하나다. 11월 매사추세츠공과대(MIT)에서 발표된 한 연구에 의하면 실제 데이터보다 합성데이터를 학습시킨 모델의 성능이 높다는 연구 결과도 발표된 바 있다. GAN 기술을 활용해 구축한 헬스케어 합성데이터를 통해 이용 활성화와 AI 모델·서비스 고도화, 두 마리의 토끼를 잡을 수 있을 것으로 기대된다. 올해 구축하는 헬스케어 합성데이터 3종은 내년 상반기 AI 허브를 통해 개방된다.

조선희 기자 hee3110@donga.com

Copyright © 동아일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?