"정부, AI 개발보다 데이터 품질 개선 먼저"

[인터뷰] 카이스트 문송천 경영대학원 명예교수 "공공 데이터, 중복·오류 심각…걷어 내야"

(지디넷코리아=김미정 기자)지난해 정부가 생성 인공지능(AI)을 공공·민간 영역에 적극 활용하겠다고 발표했다. AI가 단순 보고서 작성을 넘어 공공 업무와 국민 일상생활에 스며든다는 신호다. 정부는 지자체 공공데이터를 초거대 AI 모델에 훈련해 서비스를 제공할 방침이다. 이를 위해 이리저리 분산된 지자체 데이터를 하나로 통합할 예정도 알렸다.

카이스트 문송천 경영대학원 명예교수는 생성 AI가 공공·민간 영역에 원활히 스며들려면 넘어야 할 산이 많다는 입장이다. 공공 데이터 품질 때문이다.

문송천 경영대학원 교수는 최근 본지와 진행한 인터뷰에서 "정부는 공공 데이터 품질부터 개선해야 한다"고 지적했다. 그는 "데이터 질 개선 없이 통합부터 한다면 AI 서비스는 오류투성이일 것"이라고 경고했다.

카이스트 문송천 경영대학원 명예교수는 "AI 서비스 제공보다 데이터 품질 개선이 시급하다"고 강조했다.

문송천 교수는 정부가 공공 데이터 품질을 개선하지 않은채 통합부터 한다는 입장이다. 문 교수는 "현재 전국 지자체 데이터 품질이 생성 AI 서비스에 활용될 만큼 고품질 상태가 아니다"고 주장했다. 그가 직접 지자체 데이터를 살펴본 결과, 데이터 절반 이상이 중복되거나, 틀린 결괏값 등으로 이뤄져 있어 품질 자체가 좋지 않은 상태다.

문 교수는 서울시 공공데이터를 예시로 들었다. 그는 "서울시 공공 데이터를 직접 살펴본 적 있다"고 말했다. 현재 서울시는 데이터 서비스 및 활용 제고를 위한 실국 데이터를 수집·통합해 제공하고 있다. 서울시 데이터는 241개 시스템을 비롯한 12만개 테이블, 220만개 속성데이터로 이뤄졌다. 해당 형태로 데이터를 지속적으로 수집·적재하고 있다.

문 교수는 이중 속성 데이터에 집중했다. 그는 "속성 데이터란 시민으로 치면 이름, 연령 주소 같은 개념이다"며 "서울시 인구 규모를 따졌을 때 속성 데이터는 반드시 2만개 이내여야 할 것"이라고 주장했다. 그는 "서울시 속성 데이터가 220만개라는 것은 데이터 대부분이 중복, 틀린 값 입력 등 올바르지 않은 형태로 저장돼 있다는 뜻이다"라고 설명했다.

문송천 명예교수는 공공 데이터에 남은 중복 현상과 틀린 값 등을 반드시 걷어내야 한다고 주장했다. 문송천 교수는 "제대로 정리되지 않은 데이터를 다듬지도 않고 한데 통합하는 건 진정한 데이터 통합이 아니다"라고 했다. 그는 "이는 데이터를 물리적으로 클라우드에 '집합' 시킨 것에 불과할 것"이라며 "이를 AI 모델에 넣었다간 고품질 서비스도 기대하기 어렵다"고 덧붙였다.

그는 세금 낭비를 막기 위해서라도 데이터 통합을 효율적으로 해야 한다고 강조했다. 문 교수 설명에 따르면, 현재 지자체는 공공 데이터를 여러개로 분산해 운영하고 있다. 유지보수도 각각 진행된다. 서로 다른 외부 업체가 유지보수를 맡는다. 여기에 공무원 인력도 활용된다.

문송천 교수는 "데이터 시스템을 통합하지 않으면, 유지보수에 드는 세금이 몇배 더 든다"고 주장했다. 그는 "만약 이를 하나로 합칠 경우 유지보수에 드는 세금까지 절감할 수 있는 효과를 볼 수 있다"고 했다.

문 교수는 "사람만이 데이터 품질을 개선할 수 있다"고 말했다. 이는 AI나 머신러닝이 할 수 없는 영역이라는 의미다. 그는 "AI는 자체적으로 데이터 품질을 따질 수 없다"며 "데이터를 주는 대로 학습한다"고 이유를 밝혔다. 결국 데이터가 AI 서비스를 좌우하는 셈이다.

문송천 교수는 "정부는 엉터리 데이터로 공공서비스를 만들어선 안 된다"며 "국민 생활 수준을 높이고 세금을 효율적으로 쓰기 위해서라도 효율적인 데이터 통합을 이뤄야 할 것"이라고 강조했다.

김미정 기자(notyetkim@zdnet.co.kr)

IT/과학

"정부, AI 개발보다 데이터 품질 개선 먼저"