모범답안에 모의데이터까지…K-챗GPT 개발에 데이터 확보 비상

AI 업계 "데이터 양보다 질…챗GPT처럼 강화학습 데이터 필요"
데이터 패브릭·합성 데이터 등으로 부족한 데이터양 보완·개인정보 보호

(서울=연합뉴스) 조성미 기자 = 한국판 챗GPT 개발 지원을 선언한 정부가 대화형 인공지능(AI) 개발의 밑거름으로 여겨지는 데이터 확보를 위해 다양한 방법을 찾아 나섰다.

23일 과학기술정보통신부에 따르면 이종호 장관은 LG, SK텔레콤, 네이버 클라우드 등 기업·학계 전문가와 챗GPT 동향을 주제로 간담회를 하는 등 고위·실무진들이 AI 전략 대화를 잇달아 진행하며 데이터 확보를 위한 아이디어를 얻고 있다.

과기정통부 관계자들을 만난 자리에서 생성형 AI 전문가들은 "다량의 가공되지 않은 자료(로데이터·raw data)보다 정제된 데이터가 훨씬 필요하다"는 의견을 낸 것으로 전해진다.

전문가들에 따르면 챗GPT 개발사인 오픈AI는 과학자가 손수 만든 '모범 질문답변 세트'를 인공지능에 학습시키는 방법을 사용했다.

전 단계인 GPT-3가 1천750억 개 매개변수를 쏟아붓는 '지도 학습(Supervised Learning)' 방법을 썼다면, 챗GPT(GPT-3.5)는 데이터양보다 질에 해당하는 결과 만족도에 신경을 썼다는 설명이다.

이를 위해 데이터 과학자 40명이 엄선된 질문답변 1만 세트를 입력시킨 뒤 만족할만한 답변이 나올 때까지 학습을 반복하는 '강화 학습(Reinforcement Learning)' 방법을 사용했다.

이런 변화가 틀린 대답을 할 때도 있지만, 마치 사람처럼 그럴듯한 대답도 내놓기도 하며 세계적 열풍을 몰고 온 챗GPT의 성공 비결이 됐다는 것이다.

과기정통부 관계자는 "한국어 기반 생성형 AI 개발을 위해 실제 언어생활을 반영하는 인터넷 데이터를 활용하는 방안을 함께 추진하면서, 오픈AI와 같은 강화 학습 데이터가 필요하다는 업계 요구도 주의 깊게 듣고 있다"고 말했다.

과기정통부는 포털 사이트 등에 공개된 가공하지 않은 대규모 한국어 원시데이터를 모아 누구나 접근, 활용할 수 있는 공개 라이브러리를 구축하는 방안도 추진 중이다.

다만, 이 경우 정보 제공자나 포털 업체 권리를 침해하지 않는 것이 관건이라고 보고 보호 방안을 동시에 마련한다는 방침이다.

아울러 데이터 활용법을 극대화하며 양적 한계를 극복하는 방법도 찾고 있다.

대표적인 것이 '데이터 패브릭' 기술로 올해 200억 원을 투자하기로 했다.

데이터 패브릭이란 다양한 시스템에 분산·저장되어 있는 데이터를 확장 가능한 플랫폼으로 통합해 쓸만한 데이터를 추출, 활용하는 기술을 말한다.

나아가 가상 데이터를 '해결사'로 활용하는 방안도 논의 중이다.

정부와 업계에선 다량의 데이터가 필요하지만 이를 구하기 어려운 분야에서는 그 수요를 충족할 해결책으로 '합성 데이터'를 주목하는 것으로 전해졌다.

합성 데이터란 통계적 방법이나 기계학습 등을 활용해 추정된 모형을 바탕으로 새롭게 인공 생성한 가상 데이터 또는 모의 데이터를 말한다. 개인정보 취급이 민감한 의료·금융 등 분야에서 이미 쓰이고 있다.

아마존은 무인점포를 운영하며 다양한 쇼핑 시나리오 구현을 위해 합성 데이터를 쓰고 있고, JP모건은 금융 합성 데이터를 통해 자금세탁·사기 탐지 모델을 개발하고 있다.

시장조사업체 가트너는 2030년까지 AI 모델 학습에 있어 합성데이터가 실제 데이터를 압도할 것으로 전망하기도 했다.

과기정통부는 새롭게 등장하는 AI 서비스들이 생성하는 데이터 역시 AI 허브에 축적, 개방해 데이터 구축 방식을 다양화하는 방안도 내년 중 추진할 계획이라고 덧붙였다.

csm@yna.co.kr

▶제보는 카톡 okjebo

IT/과학