정부 "초거대AI 한계 넘겠다"…데이터 구축 사업도 방향 전환

이기범 기자 윤지원 기자 2023. 4. 14. 17:31
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

한국어 플랫폼 기반으로 비영어권 시장 공략 가속화
'디지털 인형 눈알 붙이기' 대신 초거대 AI에 적합한 데이터 구축 나서
고진 디지털플랫폼정부위원회 위원장이 14일 오후 서울 종로구 세종대로 정부서울청사에서 열린 디지털플랫폼정부 실현계획 합동 브리핑을 하고 있다. 왼쪽부터 이종호 과학기술정보통신부 장관, 고 위원장, 고학수 개인정보보호위원회 위원장. 2023.4.14/뉴스1 ⓒ News1 김명섭 기자

(서울=뉴스1) 이기범 윤지원 기자 = 정부가 챗GPT 열풍에 대응해 초거대 인공지능(AI) 경쟁력 강화에 나선다. 올해 3901억원의 예산을 투입하고, 특히 비영어권 시장을 공략하기 위해 데이터 구축 사업 등을 지원한다는 방침이다. 이른바 '디지털 인형 눈알 붙이기'로 불리던 데이터 라벨링 사업은 초거대 AI에 적합한 비라벨링 데이터 중심으로 전환된다.

과학기술정보통신부는 14일 정부서울청사에서 대통령 직속 디지털플랫폼정부위원회, 개인정보보호위원회와 함께 '디지털플랫폼정부 실현 계획 보고회'를 열고 초거대 AI 경쟁력 강화 방안을 발표했다.

이날 이종호 과기정통부 장관은 "우리는 독자적 초거대 AI 플랫폼을 보유한 4개국 중 하나"라며 "초거대 AI로 국민 모두가 AI를 잘 활용하는 디지털경제를 가속화하기 위해서 우리가 강점이 있는 한국어 플랫폼을 토대로 비영어권부터 글로벌 시장 공략을 시작하고 혁신적 초거대 AI 응용서비스로 전문 특화 분야 세계 1위에 도전해 나가려고 한다"고 말했다.

과기정통부는 △민간 초거대 AI 개발·고도화를 지원하는 기술·산업 인프라 확충 △초거대 AI 산업 혁신 생태계 조성 △범국가 AI 혁신 제도·문화 정착 등을 추진한다.

이종호 장관은 "초거대 AI 학습에 필요한 핵심 데이터를 보강하고, 지금의 초거대 AI가 가진 기술적 한계를 돌파하는 연구개발을 시작할 것"이라고 강조했다.

현재 초거대 AI 혹은 생성형 AI의 한계로 지적되는 부분은 최신 정보가 반영되지 않는다는 점과 '할루시네이션'(환각)으로 불리는 거짓 답변 문제다.

과기정통부는 기존 딥러닝 학습 능력·신뢰성 등을 개선하기 위한 기초 연구에 더해 논리적 인과관계 이해, 편향적 필터링, 모델 경량화 및 최적화 등의 기술을 개발하겠다고 설명했다.

또 초거대 AI 개발에 필요한 텍스트 데이터 확충에 나선다. 특히 비영어권 시장 공략을 위한 동남아·중동 등 언어 데이터를 2027년까지 200종을 구축한다. 같은 기간 초거대 AI 한국어 성능 향상을 위한 고품질 말뭉치와 한국어 응용 말뭉치를 130종 구축할 계획이다.

이 장관은 "(한국어 기반 플랫폼에 집중하는 이유는) 한국에 관계되는 세부적인 내용에 대해서는 아무래도 영어로 된 것보다 우리가 잘할 수 있는 부분이 있다"며 "한국에는 다른 나라에 비해 의료 데이터가 오래전부터 디지털화가 잘 돼 있는데 이런 전문 데이터도 초거대 AI 모델에서 중요한 한 축을 차지하고 있어 이 부분을 특화하는 전략도 유용할 것"이라고 말했다.

고진 디지털플랫폼정부위원회 위원장이 14일 오후 서울 종로구 세종대로 정부서울청사에서 열린 디지털플랫폼정부 실현계획 합동 브리핑을 하고 있다. 왼쪽부터 이종호 과학기술정보통신부 장관, 고 위원장, 고학수 개인정보보호위원회 위원장. 2023.4.14/뉴스1 ⓒ News1 김명섭 기자

과기정통부는 기존 데이터 구축 사업을 초거대 AI 중심으로 재편할 계획이다. 올해 데이터 구축 사업에는 총 2805억원의 예산이 투입되는데, 챗GPT 등 초거대 AI에 기반한 대화형 모델 지원을 위한 데이터 구축이 추진된다.

기존 지도학습용 데이터(라벨링 데이터) 물량은 일부 축소하고, 한국어 21종을 포함한 총 34종의 데이터를 '초거대 AI 지원 데이터'로 구분해 자기지도학습에 필요한 비라벨링 데이터 구축을 확대한다.

기존에는 AI가 학습할 수 있는 형태로 데이터를 분류하는 전처리 작업이 필수적이었지만, 초거대 AI 시대에 접어들며 라벨링 없이 AI가 스스로 학습하는 '자기지도학습'을 기반으로 사람이 라벨링 하지 않은 데이터도 활용할 수 있게 됐다.

정부는 내년부터 사업 개편을 통해 초거대 AI 데이터 구축을 별도 트랙으로 신설해 본격 지원할 예정이다.

강도현 과기정통부 정보통신정책실장은 "AI 학습용 데이터 분야에서 비라벨링 데이터를 추가해 (초거대 AI 학습을) 지원할 수 있게 됐다"며 "현재는 딥러닝의 한계를 돌파하기 위한 설명 가능한 AI, 인간 중심의 AI, 강화 학습을 위한 AI 등 차세대 AI 기술 개발을 해왔는데 추가로 초거대·생성 AI 한계를 돌파할 수 있는 과제를 진행할 것"이라고 설명했다.

Ktiger@news1.kr

Copyright © 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.

이 기사에 대해 어떻게 생각하시나요?