"정부, AI 개발보다 데이터 품질 개선 먼저"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
지난해 정부가 생성 인공지능(AI)을 공공·민간 영역에 적극 활용하겠다고 발표했다.
정부는 지자체 공공데이터를 초거대 AI 모델에 훈련해 서비스를 제공할 방침이다.
문송천 경영대학원 교수는 최근 본지와 진행한 인터뷰에서 "정부는 공공 데이터 품질부터 개선해야 한다"고 지적했다.
문송천 교수는 정부가 공공 데이터 품질을 개선하지 않은채 통합부터 한다는 입장이다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
(지디넷코리아=김미정 기자)지난해 정부가 생성 인공지능(AI)을 공공·민간 영역에 적극 활용하겠다고 발표했다. AI가 단순 보고서 작성을 넘어 공공 업무와 국민 일상생활에 스며든다는 신호다. 정부는 지자체 공공데이터를 초거대 AI 모델에 훈련해 서비스를 제공할 방침이다. 이를 위해 이리저리 분산된 지자체 데이터를 하나로 통합할 예정도 알렸다.
카이스트 문송천 경영대학원 명예교수는 생성 AI가 공공·민간 영역에 원활히 스며들려면 넘어야 할 산이 많다는 입장이다. 공공 데이터 품질 때문이다.
문송천 경영대학원 교수는 최근 본지와 진행한 인터뷰에서 "정부는 공공 데이터 품질부터 개선해야 한다"고 지적했다. 그는 "데이터 질 개선 없이 통합부터 한다면 AI 서비스는 오류투성이일 것"이라고 경고했다.
문송천 교수는 정부가 공공 데이터 품질을 개선하지 않은채 통합부터 한다는 입장이다. 문 교수는 "현재 전국 지자체 데이터 품질이 생성 AI 서비스에 활용될 만큼 고품질 상태가 아니다"고 주장했다. 그가 직접 지자체 데이터를 살펴본 결과, 데이터 절반 이상이 중복되거나, 틀린 결괏값 등으로 이뤄져 있어 품질 자체가 좋지 않은 상태다.
문 교수는 서울시 공공데이터를 예시로 들었다. 그는 "서울시 공공 데이터를 직접 살펴본 적 있다"고 말했다. 현재 서울시는 데이터 서비스 및 활용 제고를 위한 실국 데이터를 수집·통합해 제공하고 있다. 서울시 데이터는 241개 시스템을 비롯한 12만개 테이블, 220만개 속성데이터로 이뤄졌다. 해당 형태로 데이터를 지속적으로 수집·적재하고 있다.
문 교수는 이중 속성 데이터에 집중했다. 그는 "속성 데이터란 시민으로 치면 이름, 연령 주소 같은 개념이다"며 "서울시 인구 규모를 따졌을 때 속성 데이터는 반드시 2만개 이내여야 할 것"이라고 주장했다. 그는 "서울시 속성 데이터가 220만개라는 것은 데이터 대부분이 중복, 틀린 값 입력 등 올바르지 않은 형태로 저장돼 있다는 뜻이다"라고 설명했다.
문송천 명예교수는 공공 데이터에 남은 중복 현상과 틀린 값 등을 반드시 걷어내야 한다고 주장했다. 문송천 교수는 "제대로 정리되지 않은 데이터를 다듬지도 않고 한데 통합하는 건 진정한 데이터 통합이 아니다"라고 했다. 그는 "이는 데이터를 물리적으로 클라우드에 '집합' 시킨 것에 불과할 것"이라며 "이를 AI 모델에 넣었다간 고품질 서비스도 기대하기 어렵다"고 덧붙였다.
그는 세금 낭비를 막기 위해서라도 데이터 통합을 효율적으로 해야 한다고 강조했다. 문 교수 설명에 따르면, 현재 지자체는 공공 데이터를 여러개로 분산해 운영하고 있다. 유지보수도 각각 진행된다. 서로 다른 외부 업체가 유지보수를 맡는다. 여기에 공무원 인력도 활용된다.
문송천 교수는 "데이터 시스템을 통합하지 않으면, 유지보수에 드는 세금이 몇배 더 든다"고 주장했다. 그는 "만약 이를 하나로 합칠 경우 유지보수에 드는 세금까지 절감할 수 있는 효과를 볼 수 있다"고 했다.
문 교수는 "사람만이 데이터 품질을 개선할 수 있다"고 말했다. 이는 AI나 머신러닝이 할 수 없는 영역이라는 의미다. 그는 "AI는 자체적으로 데이터 품질을 따질 수 없다"며 "데이터를 주는 대로 학습한다"고 이유를 밝혔다. 결국 데이터가 AI 서비스를 좌우하는 셈이다.
문송천 교수는 "정부는 엉터리 데이터로 공공서비스를 만들어선 안 된다"며 "국민 생활 수준을 높이고 세금을 효율적으로 쓰기 위해서라도 효율적인 데이터 통합을 이뤄야 할 것"이라고 강조했다.
김미정 기자(notyetkim@zdnet.co.kr)
Copyright © 지디넷코리아. 무단전재 및 재배포 금지.
- "망가진 공공SW 사업, 원인은 '데이터 설계도'"
- 카카오톡 먹통 사태 1년…"기술 투자 늘리고, 자체 데이터센터 운영"
- 권은희 의원 "4차 나이스 문제 원인은 행정 편의주의"
- 슬랙 코리아 "기술이 업무 역량 키우는 시대 왔다"
- '스무돌' 맞이한 지스타 2024…주요 게임사 대표 모였다
- "하필 수능날 날벼락"…경기 지역서 나이스 먹통, 1시간여 만에 복구
- 세금신고·복지신청, 한 곳에서...공공서비스 더 똑똑하고 편리해진다
- 경계 사라진 비즈니스...엔비디아·어도비 등 ‘빅테크 혁신 팁’ 푼다
- 이석우 두나무-마이클 케이시 DAIS 협회장 "블록체인 산업, 외부 의존도 낮춰야"
- 아파트 주차장서 또 벤츠 전기차 화재…이번엔 국내산 배터리