文때 1000억 들인 AI 데이터, 34%가 못쓰는 엉터리였다

김경필 기자 2024. 5. 24. 01:03
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

감사원, 정보화 사업 실태조사
문재인 전 대통령이 2022년 6월 18일 '한국판 뉴딜'의 첫 현장행보로 강원도 춘천 데이터·AI(인공지능) 전문기업 더존비즈온 강촌캠퍼스를 찾아 개발자들과 차담회를 갖고 있다. 문 대통령은 "디지털 뉴딜이 성공한다면 우리는 포스트 코로나 시대의 디지털 경제를 다른 나라들보다 앞서가서 성공할 수 있을 것"이라고 말했다. /청와대/뉴스1

한 민간 IT 업체는 2020년 정부로부터 ‘인공지능(AI) 학습용 데이터 구축 사업’ 일감을 수주했다. 달걀·소고기 등 축산물 사진 수만 건으로 이뤄진 데이터 뭉치를 만드는 것이었다. 정부가 이 데이터 뭉치를 일반에게 공개하면, 기업들이 AI에 학습시켜 ‘달걀 겉모습만 보고 달걀 품질을 판정하는 AI’ ‘소고기 겉모습을 보고 1++등급 등심과 2등급 안심을 구분하는 AI’ 등을 개발할 수 있었다.

그러나 이 업체가 낸 데이터 뭉치는 AI 학습에 전혀 쓸 수 없는, ‘쓰레기 데이터’였다. 정부의 요구는 A~D등급 달걀 사진을 1만6000장씩 총 6만4000장 내라는 것이었다. 그러나 이 업체가 제출한 사진은 B등급 달걀 사진 43장에 불과했다. 이 업체는 소고기 사진도 5개 등급별로 1만6000장씩 8만 장을 내야 했지만, 1등급 사진은 하나도 없었고 2·3등급 소고기 사진만 몇천 장씩 냈다. 1등급 소고기 사진이 없는 데이터로 AI를 학습시켜서 1등급과 2·3등급 소고기를 구분하게 할 수는 없다. 그런데도 이 업체는 정부로부터 19억원을 받았다.

이 업체는 문재인 정부가 ‘한국판 뉴딜’이란 명목으로 2020년부터 추진한 ‘AI 데이터 사업’에 참여했다. 감사원은 2020년부터 내년까지 약 2조5000억원이 투입되는 이 사업에서 첫 2년간 나온 데이터 뭉치 360개 가운데 122개(33.8%)가 품질 기준 미달로 AI 학습에 쓸 수 없는 상태인 것으로 드러났다고 23일 밝혔다. 이 122개 데이터 뭉치를 만드는 데는 1148억원이 들어갔다.

그래픽=이진영

다른 업체가 만든 ‘스포츠 사람 동작(축구)’ 데이터 뭉치는 사람이 축구 동작을 하는 사진 수만 건으로 돼 있었다. 그런데 일부 사진은 사진 속 사람이 하는 동작이 무슨 동작인지에 대한 설명이 빠져 있었다. 태클을 하는 것인지, 슬라이딩을 하는 것인지, 반칙 장면인지, 정상 플레이 장면인지 등의 표시가 전혀 돼 있지 않았다. 또 다른 업체는 청력 검사 결과 자료를 10만8167건 모아 냈는데, 각 자료에 대한 설명이 모두 빠져 있었다. 이 역시 데이터로서 쓸모가 없다. 그런데도 두 업체는 정부로부터 각각 19억원, 18억원을 받았다.

감사원은 AI 데이터 사업을 맡은 과학기술정보통신부 산하 한국지능정보사회진흥원(지능정보원)이 사업 관리를 부실하게 해 벌어진 일이라고 봤다. 지능정보원은 이런 업체들이 제출한 데이터 뭉치를 데이터 공개 사이트에 그대로 올려놓고 방치하고 있었고, 이들에게 새로운 일감을 계속 주고 있었다. 일부 업체는 사업비로 받은 19억원 중 13억9000만원을 횡령하기도 했다. 감사원 관계자는 본지 통화에서 “정부가 AI 데이터 사업 규모를 2020년 갑자기 기존의 7배 이상으로 늘리면서, 지능정보원이 사업을 감당하지 못하게 된 것으로 보인다”고 설명했다.

정부와 지방자치단체가 진행하는 각종 정보화 사업 관련 행정 처리가 사실상 수기(手記)로 이뤄져 왔다는 사실도 이번 감사를 통해 드러났다. 감사원에 따르면, 각 중앙 행정기관과 지자체는 여러 정보화 사업이 중복돼 이뤄지는 것을 막기 위해, 현재 하고 있는 사업에 관한 세부 내역을 지능정보원에 제출해야 한다. 그런데 각 기관과 지자체 담당자들은 각 사업 세부 내역에 관한 문서를 워드프로세서와 엑셀로 일일이 작성해, 이를 공문에 첨부해 지능정보원으로 보내고 있었다. 지능정보원 직원들은 공문을 하나하나 열어서 안에 있는 내역을 옮겨 적고, 내용에 오류가 있을 때는 해당 기관 담당자에게 전화해 고치는 방식으로 일하고 있었다. 이들이 이런 식으로 처리한 문서는 2018년부터 2022년까지 5년간 6만309건에 달했다.

지능정보원과 과기정통부도 이런 업무 방식이 극도로 비효율적이라는 것을 알고 있었다. 그래서 이를 자동화하는 시스템 구축을 추진했지만, 행정안전부가 ‘우리가 운영하는 범정부 포털 사이트와 겹친다’며 반대해 무산됐다. 그래 놓고는 이 자동화 시스템에 필요한 기능을 범정부 포털에 넣지 않았다.

감사원은 과기정통부에 AI 데이터 사업으로 만들어진 데이터 뭉치들을 점검해, 부실 데이터를 냈거나 횡령한 업체들을 찾아 사업비를 회수하는 등의 조치를 하라고 통보했다. 또 과기정통부와 행안부에는 정보화 사업 행정 처리 업무를 범정부 포털에서 처리할 수 있게 협의하라고 했다. 과기정통부 관계자는 “감사원이 품질이 기준에 미달한다고 지적한 데이터 뭉치들에 대해 업체들에 보완을 요구해, 대다수 데이터의 보완이 곧 완료될 예정”이라고 했다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?