수명 예측 78% 적중한 AI…600만명 데이터 9년치 학습

곽노필 기자 2024. 1. 3. 14:35
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

곽노필의 미래창
장기간에 걸친 건강, 교육, 직업 등의 정보를 거대언어모델로 훈련시켜 사망 위험, 성격 등을 예측하는 인공지능이 개발됐다. 노스이스턴대 제공

한겨레 뉴스레터 H:730 구독하기. 검색창에 ‘h:730’을 쳐보세요.

인공지능의 가장 큰 장점 가운데 하나는 복잡한 데이터를 짧은 시간 안에 분석하는 능력이다. 분석을 통해 파악된 데이터의 특성은 문제에 대한 해법을 찾고 결정을 내리는 데 중요한 참고 자료가 된다. 인공지능의 탁월한 데이터 분석 능력은 나의 과거 이력을 토대로 나의 운명도 예측할 수 있을까? 기대와 불안이 교차하는 그런 일이 실제 가능하다면 그 능력을 어떻게 써야 할까?

덴마크공대와 코펜하겐대, 미국 노스이스턴대 과학자들이 건강기록, 교육 등에 관한 기록을 토대로 사망 위험과 성격 등을 예측할 수 있는 인공지능 라이프투벡(life2vec)을 개발해 국제학술지 ‘네이처 컴퓨테이셔널 사이언스’(Nature Computational Science)에 발표했다.

연구진은 예측 인공지능 개발에 나선 것은 15년 전이다. 연구진은 그동안 약 5천명의 어린이로부터 얻은 건강, 가족관계, 교육 등에 대한 데이터를 사용해 이들의 미래를 예측하는 인공지능을 만들었다. 하지만 번번이 실패했다. 어떤 모델도 정확한 예측을 내놓지 못했다.

고심하던 연구진은 요즘 각광받고 있는 대규모 언어모델(LLM)에서 돌파구를 찾았다. 챗지피티의 기반이 되는 대규모 언어모델은 엄청난 분량의 자연어 문서를 분석해 단어와 문장 사이의 특정한 패턴을 찾아낸다. 그런 다음 이 정보를 이용해 다음에 나올 단어나 문장을 예측한다.

연구진은 이런 방식의 분석-예측 모델이 사람들의 삶에도 비슷하게 적용될 수 있을 것으로 봤다. 연구를 이끈 덴마크공대의 수네 리만 교수는 “인생에서 일어나는 사건들도 언어와 마찬가지로 순서가 중요하다”고 말했다. 예컨대 건강 보험 혜택이 좋은 직장에 취업한 직후에 암 진단을 받는다면, 그렇지 않은 직장에 취업했을 경우와 비교해 볼 때 이후의 삶이 달라질 수 있다.

연구진은 덴마크 통계청의 특별한 허락을 받아, 약 600만명에 이르는 덴마크 국민 전체의 건강과 교육, 경제 활동 정보 기록이 포함된 국가등록부에서 알고리즘에 연결할 데이터를 찾았다.

연구진은 등록부에 기록돼 있는 사람들의 급여, 사회복지 혜택, 직위, 병원 방문 및 진단과 같은 정보들 가운데 서로 연결성이 높은 것들을 묶어 문장으로 번역했다. 예컨대 “2010년 8월, 아그네스는 코펜하겐의 한 병원에서 조산사로 일하며 3만 크로네를 벌었다”와 같은 식이다. 이를 발생한 시기별로 배치하자 각 개인의 삶이 하나의 이야기로 구성됐다.

인공지능은 8년치의 개인 정보를 학습한 뒤 사망 여부를 80%의 정확도로 예측했다.

9년치 기록 학습 뒤 78% 정확도로 사망 여부 예측

연구진은 덴마크 국민 전체의 2008~2016년 삶의 기록을 이런 방식으로 인공지능에 학습시켰다. 그러자 인공지능은 각자의 삶에서 고유의 패턴을 찾아냈고, 이를 토대로 거대언어모델이 다음 단어를 유추하듯 미래에 일어날 수 있는 일을 예측할 수 있게 됐다.

연구진은 훈련을 마친 인공지능에 2016~2020년 사망한 35~65살 덴마크인들의 데이터를 주고, 누가 살아 있고 누가 죽었는지 예측하도록 했다.

인공지능이 내놓은 예측의 정확도는 78%였다. 연구진은 “이는 보험업계가 생명보험료를 책정하는 데 사용되는 수명 예측 모델보다 11% 더 정확한 것”이라고 말했다.

인공지능이 찾아낸 조기 사망 위험을 높이는 요인은 저소득, 정신질환 진단, 남성 등이었다. 인공지능이 잘못 예측한 경우는 예측하기 어려운 돌발 사고나 심장마비로 인한 것이었다.

연구진은 또 인공지능이 외향성이나 내향성 등 사람들의 성격 특성도 정확하게 짚어냈다고 밝혔다.

리만 교수는 “이 모델을 통해 과거의 상황과 사건을 바탕으로 미래의 사건을 어느 정도까지 예측할 수 있을까라는 질문에 답할 수 있게 됐다”고 말했다. 연구진은 이 인공지능이 유용하게 쓰일 수 있는 가장 유망한 분야 가운데 하나는 의료 부문을 꼽았다. 개인의 질병 위험을 파악해 예방 조처를 취하는 데 유용하게 활용할 수 있는 도구가 될 수 있을 것으로 기대했다.

예측 인공지능은 민감한 개인 정보를 다루는 만큼 엄격한 관리가 필요하다. 픽사베이

의료 부문엔 유용하지만 악용 가능성 널려 있어

이번 연구는 덴마크인을 대상으로 한 것이므로, 다른 나라 사람들에게 이 인공지능을 그대로 적용하기는 어렵다. 영국 유니버시티 칼리지 런던의 유유 우 교수(심리학)는 “다른 국가의 집단 데이터를 사용하여 이 모델을 적용하여 보편적인 패턴을 밝혀내거나 독특한 문화적 차이를 강조할 수 있다면 매우 흥미로울 것"이라고 말했다.

그러나 민감한 개인 정보를 다루는 만큼 엄격한 관리가 필요하다. 리만 교수는 따라서 실제로 이런 인공지능을 사람한테 적용하기 위해선 이 문제가 사전에 해결돼야 할 것이라고 말했다.

데이터 자체의 편향성이 예측을 방해할 수도 있다. 예컨대 실직 기간이 길거나 건강보험이 없는 사람의 경우 데이터가 왜곡될 수 있다.

연구진은 또 기업이 이런 예측 모델을 악용할 가능성도 우려했다. 리만 교수는 “소비자들에 대한 엄청난 양의 데이터를 보유한 거대 기술 기업은 이미 우리에게 이런 기술을 사용해 우리와 관련한 예측을 하고 있을 가능성이 크다”고 말했다. 예컨대 페이스북이나 인스타그램 같은 사회관계망서비스(SNS)에서의 활동 기록은 이미 기업들이 소비자들의 특성을 파악하고 향후 행동을 예측하는 중요한 데이터로 쓰이고 있다.

이와 관련해 영국 보험계리사연구소의 매튜 에드워즈는 뉴사이언티스트에 “보험사들이 새로운 예측 방법에 관심이 있는 것은 사실이지만, 대부분의 의사 결정은 ‘일반 선형 모델’(GLM)에 의해 이루어지며, 이 연구와 비교하면 초보적인 수준”이라고 말했다.

인공지능이 실제로 입력된 데이터를 기반으로 사망을 예측할 수 있는지 확인하려면 앞으로 더 많은 연구가 필요할 것이다. 연구진은 이번에 개발한 인공지능이 예측의 긍정적인 측면과 부정적인 측면을 논의하는 촉매제가 되기를 기대했다. 만약 인공지능이 우리의 미래를 예측할 수 있다면, 그 이전에 ‘이 기술이 인간 사회에 어떤 영향을 끼칠지, 그리고 그것은 바람직한 것인지’를 결정해야 할 것이기 때문이다.

*논문 정보

https://doi.org/10.1038/s43588-023-00573-5

Using sequences of life-events to predict human lives. Nat Comput Sci (2023).

곽노필 선임기자 nopil@hani.co.kr

Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지

이 기사에 대해 어떻게 생각하시나요?