카카오헬스, 구글과 진료 데이터 사업 'Go~!'

장자원 2023. 8. 21. 08:01
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

세브란스병원에서 '첫삽'... 종합병원들로 확대
[사진=게티이미지뱅크]

카카오헬스케어(이하 카카오)가 구글의 손을 잡고 병원 진료 데이터 사업을 본격적으로 펼친다. 국내 병원이 보유한 환자 진료 기록을 비식별화해 연구기관 또는 기업에 제공하는 사업이다. 지난 4월 카카오가 구글 클라우드와 글로벌 사업을 위한 양해각서(MOU)를 체결한 뒤 4개월 만에 구체적 사업을 출발하는 셈이다.

해당 비즈니스 모델은 전 세계를 대상으로 하는 것으로 구글이 딥러닝 기술을 활용해 국내 대학병원과 전자의무기록(EMR)의 비식별 진료기록을 가공하고, 이렇게 가공된 데이터를 산업체나 연구진에 제공하는 것이 골자다. 첫 대상이 되는 의료 기관은 세브란스병원이다. 이후 국내 다른 병원들을 거쳐 해외 병원까지 사업을 확장할 계획이라고 카카오 측은 밝혔다.

◆모습 드러내는 '데이터 레이크'…핵심은 '중개'

카카오 측은 이번 사업의 모델을 설명하는 가장 적합한 단어는 '데이터 레이크(Data Lake)'라고 설명했다. '데이터를 저장하는 호수'라는 뜻의 데이터 레이크는 대량의 데이터를 처리 및 보호하도록 설계된 저장 방식을 말한다.

데이터 레이크는 △엑셀 시트와 같은 정형화 데이터, △XML 파일이나 웹 페이지 로그 등 반정형화 데이터, △이미지나 오디오 파일, SNS 기록 등 비정형 데이터에 이르기까지 종류에 상관없이 다양한 데이터를 그대로 보존하는 것이 가능하다. 방대한 양의 자료를 다뤄야 하는 빅 데이터 기업에서 주로 구축하고 활용한다. 다만 진료기록 등을 담은 의료 데이터에는 극도로 민감한 개인 정보가 포함돼 있다. 이 때문에 활용을 위해 넘어야 할 장애물도 많다.

이 문제 해결을 위해 등장한 것이 바로 구글의 '연합 학습(Federated Learning)'이다. 연합 학습은 실제 데이터는 공유하지 않고, 인공지능에 학습시킨 정보만 따로 통합하는 것을 말한다. 각 병원이 가진 데이터를 개별 인공지능 모델에 암호화해 학습시킨 후, 그 모델만 클라우드에 업로드하면 원본 데이터의 유출 없이 익명의 데이터를 통합할 수 있는 것이다.

연합 학습 과정을 활용하면 현재 의료기관 외부로 반출하는 것이 까다로운 비식별 EMR 데이터는 물론 임상 연구 참여 기록, 약 처방 기록, 간호·간병 기록, 웨어러블 기기를 통해 수집한 활력 징후 등을 가공해 한 곳에 모으는 것이 가능하다. 의료 데이터가 한 곳에 모인 '호수'가 만들어지는 것이다. 이렇게 모인 정보는 가명 처리 등의 비식별 과정을 거친 데이터이기 때문에 연구진이나 산업체 등 필요한 수요자들에게 제공하는 것도 가능하다.

카카오 측은 이번 비즈니스 모델은 데이터의 '판매'가 아닌 '중개'라고 강조했다. 의료기관에서 제공하는 데이터를 구글을 통해 가공한 뒤 제약사와 같은 수요처에 연결해주면서 수수료로 수익을 내는 구조이기 때문이다. 카카오와 구글이 의료기관-산업계 데이터 거래에서 기술로 무장한 거간꾼이 되는 셈이다.

이와는 별도로 의료기관에 데이터 보안 및 암호화 기술을 판매하는 것 역시 또 다른 수익원이 될 수 있다. 특히 작은 중대형병원은 데이터의 보안과 관련한 기술을 따로 개발할 여력이 없기 때문에 데이터 암호화 기술에 대한 수요가 충분하다는 것이 카카오의 설명이다.

카카오헬스케어 '데이터레이크' 사업 개요. [그래픽=코메디닷컴 DB]

카카오 관계자는 "현재는 구글과의 구체적 협력 방안을 논의하는 단계"라며 "궁극적으로는 국내외의 다양한 헬스케어 기업에 데이터 중개 서비스를 제공하는 것이 목표"라고 밝혔다.

이러한 사업 모델의 청사진은 오는 30일 연세대 의료원과 카카오헬스케어가 공동으로 개최하는 '2023 글로벌 디지털 헬스케어 심포지엄'을 통해 베일을 벗는다. 이날 구글 클라우드의 패트리샤 플로리사 이사와 카카오헬스케어 황희 대표의 'AI를 활용한 의료데이터 솔루션 개발과 글로벌시장 동향' 발표가 예정돼 있다. 구글 입장에서도 이번 데이터레이크 사업은 '빅데이터-클라우드 연계'의 실험적 모델이 될 것으로 보인다.

이번 사업이 탄력을 받으면 EMR 제조 회사를 비롯한 의료 IT(정보기술) 기업, 보건 의료 데이터 관련 기업 등 의료산업계 전반의 동반성장이 예상된다. 진료만으로는 적자를 보기 쉬운 국내 종합병원들에게도 수익을 창출할 수 있는 기회가 될 수 있다는 분석도 나온다.

◆곳곳에 투자, 치밀하게 포석 깔아둔 카카오

카카오 관계자에 따르면, 데이터레이크 사업은 이달 중 세브란스병원에서 시작해 국내 주요 병원으로 확대한다.

카카오의 지난 행보를 돌아보면, 이번 사업을 위한 포석을 곳곳에서 확인할 수 있다. 지난해 카카오는 연세의료원과 협력해 운영 중이던 조인트벤처기업 '파이디지털헬스케어'를 카카오그룹 계열사로 편입했다. 카카오는 최근까지 지분을 늘리는 한편, 이사진에 카카오헬스케어 관련 인사를 배치하는 등 파이디지털헬스케어에 대한 지배력을 키워가고 있다.

의료 생태계를 만들기 위해 의료 데이터를 보유한 연세의료원과 긴밀한 산학협력 관계를 구축하고 있는 것이다. 데이터 레이크 사업을 세브란스병원에 시범 적용하는 것 역시 이 같은 사전 작업이 있기에 가능했다.

올해 초 카카오는 국내 EMR 업계를 선도하는 '이지케어텍'에도 약 99억 규모의 투자를 감행했다. 이지케어텍은 서울대병원 등 주요 병원을 비롯해 중소형 병원들에도 EMR 관리 및 보안 체계를 공급한다. 미국, 중동, 일본 등에 EMR 체계를 수출하며 세계적인 수준의 경쟁력을 인정받기도 했다. 결국 선제적 투자를 통해 이지케어텍 시스템을 사용하는 병원들을 잠재적 고객으로 확보한 셈이다.

이 뿐만 아니라 카카오는 경희의료원과 컨소시엄을 구성해 보건복지부의 '2023 스마트임상시험 신기술개발 연구' 사업자로 선정되기도 했다. 해당 사업은 실제임상자료(RWD)와 실제임상근거(RWE) 등 임상시험을 위한 통합 데이터베이스를 구축하고 이를 민간 기업의 신약 개발에 활용하는 것을 목표로 한다.

카카오는 해당 사업에서 의료 데이터를 표준화하는 역할을 담당한다. 각 의료기관에 분산된 데이터를 하나의 플랫폼으로 통합하는 것이다. 카카오 입장에서 데이터 표준화 역량을 강화하는 절호의 기회를 얻은 셈이다.

◆카카오가 보건의료데이터 활용 방안 제시할까?

카카오가 구글과 손잡고 내놓은 이번 비즈니스 모델은 보건의료데이터 활용 관련 새로운 돌파구를 마련할 가능성이 크다.

특히 전자의무기록(EMR)은 현재 활용 방안이 가장 다양하게 연구되고 있는 보건의료데이터다. EMR은 환자의 진료 기록을 컴퓨터에 기록해 병원 등의 의료기관이 보관하는 정보를 말한다. 환자의 인적 사항, 병력, 진찰·치료·수술·입퇴원 기록, 건강검진 기록 등의 방대한 정보를 담고 있어 의사의 진단 보조는 물론 빅데이터 기반의 임상 연구에도 다양하게 활용할 수 있다.

다만, '산업계'가 EMR 데이터를 활용하는 것은 현실적인 어려움이 있다. 개인정보보호를 위한 엄격한 규제와 심의 절차 때문이다. 현재 EMR 데이터는 각 의료기관이 분산해서 저장하고 있으며, 기관 외부로 반출하기 위해선 각 의료기관의 심의를 거쳐야 한다.

가명 처리로 데이터 당사자를 알아보지 못하도록 '비식별화'한 데이터는 법적으로 당사자의 동의 없이 활용하는 것이 가능하지만, 실제로는 병원마다 데이터심의위원회(DRB)와 윤리심의위원회(IRB)의 이중 심의를 거쳐야 사용이 가능하다.

아주대병원 의료정보학교실 박래웅 교수는 이러한 심의 절차와 관련해 "민감한 개인정보의 반출과 활용은 의료기관이 굉장히 보수적으로 접근하는 경향이 있어 공익성이나 당위성을 입증하지 못하면 실제 반출 및 활용이 굉장히 어렵다"며 "익명화나 가명화 정도를 강화하라는 요구나 제공하는 정보의 범위를 축소하라는 요구도 흔하다. 기관별로 별도 심의위원회가 있어 기준이 제각각이라는 문제도 있다"고 지적했다.

카카오의 데이터레이크 모델이 이러한 현실적인 문제를 해결할 수 있을지에 의료데이터 산업계 전체가 주목하고 있는 것은 이 때문이다.

◆ 데이터의 호수 너머에는 '바드'가?

데이터 레이크 사업이 순항할 경우 보건의료 데이터 활용은 날개를 달 것으로 보인다. 장기적으론 구글이 대형 언어 모델(LLM) '바드'를 활용할 수 있다는 전망도 카카오 측에서는 나왔다.

카카오가 '데이터레이크'에 모은 의료데이터를 바드가 학습하면 △치료 및 신약 개발 목적의 임상 데이터 확보 △과거 환자 이력을 활용한 잠재적인 위험 예측 △질병 발생을 추적 및 모니터링하는 대응체계 구축 등에 적극적으로 활용할 수 있기 때문이다.

EMR과 생성형 AI가 만나는 '인공지능 헬스케어' 시대는 멀지 않은 미래일지 모른다. [그래픽=코메디닷컴 DB]

다양한 의료조건에서 치료 과정이 어떻게 진행되는지, 결과의 추세나 환자의 예후는 어떠한지를 패턴화하여 학습하고 상관관계를 식별하는 것이다. 이렇게 가공된 정보는 병원 내부에선 환자 치료와 의료 체계 개선에, 산업계에선 의학 연구와 신약 개발에 사용될 수 있다. 특정 임상 시험이나 연구에 참여할 최적화된 후보를 식별할 수 있다는 점에서 제약 회사나 맞춤형 건강관리 회사, 건강 보험 회사 등에서도 부가가치를 만들어 낼 수 있다.

카카오헬스케어도 의료 데이터 가공에 대한 가능성을 주시하고 있다. 카카오헬스케어 경영진은 4월 구글과의 협약 이후 이지케어텍을 방문해 EMR 데이터와 생성형 AI가 결합한 모델의 파급력에 대해 설명하고 상호 협력 방안을 논의한 것으로 알려졌다.

장자원 기자 (jang@kormedi.com)

Copyright © 코메디닷컴. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?