AI 시대에도 ‘아래아한글’ 집착 못 버리는 정부… 공공데이터 활용 못하고 글로벌 트렌드 뒤처져

HWP 버전 아래아한글 문서, 국제 표준 포맷 쓰지 않아 데이터화 문제
과기정통부, 7200만원 들여 AI 학습 위한 데이터 가공 프로젝트
정부 업무규정에 없지만 의무나 마찬가지
“어디서나 활용 가능한 오픈소스 솔루션 고민해야”

국가종합전자조달시스템 ‘나라장터’ 전산망에 올라온 한글 문서 형식의 국토교통부의 발주계획 공고문./나라장터 캡쳐

#통신 업종에서 근무하는 이모(37)씨는 출산 후 복직 과정에서 고용노동부로부터 육아휴직과 단축근무 급여 중복 신청에 따른 소명 서류 제출 요청을 받았다. 파일 형식은 한글과컴퓨터의 한컴오피스(일명 아래아한글)였다. 이씨는 “집에서는 문서작성에 마이크로소프트(MS) 오피스를 사용하다 보니 아래아한글이 없어 소명이 늦어졌다”면서 “정부부처에서 아래아한글만 고집하는 이유를 모르겠다”고 말했다.

#IT업계에서 홍보대행 업무를 수행하는 김모(41)씨는 조달청 ‘나라장터’에 올라온 정부기관 공고문을 자주 접한다. 그는 “문서를 보는 것도 전용 뷰어를 설치해야 하기에 불편하지만, 신청서류를 아래아한글 문서로 첨부하라고 요구하면 사무실에서 아래아한글이 있는 사람을 찾아 나서야 한다”고 토로했다.

정부부처 및 산하기관이 생성형 인공지능(AI) 시대에도 ‘아래아한글’ 사용 관행을 고집하면서 국민들의 불편을 유발하는 동시에 공공데이터 활용에 한계가 있다는 지적이 나오고 있다. 한글과컴퓨터 관계자는 “현재 정부기관이나 관공서 문서를 한글 뷰어를 사용해 무료로 읽을 수 있지만, 편집은 못하는 게 사실”이라며 “행정서식을 자유롭게 편집할 수 있는 서비스를 연내 선보일 계획”이라고 말했다.

◇ ‘아래아한글’ 데이터 활용하려면 별도 작업 필요

한글과컴퓨터는 2021년 4월 아래아한글 문서 기본형식을 ‘HWP’에서 개방형인 ‘HWPX’로 변환했다. 비표준 포맷의 문서 파일은 빅데이터 분석에 바로 사용할 수 없어, 공공데이터 활용을 위해 HWP의 폐쇄성을 탈피한 것이다. HWPX는 별도 처리 과정 없이 데이터 분류·추출이 가능한 기계 판독형(Machine Readable) 문서다.

하지만, 이미 HWP로 작성된 문서를 사용하거나, 이용자가 HWPX 버전의 아래아한글을 사용하지 않으면 여전히 데이터 활용에 제한이 있다. 김명주 서울여대 정보보호학과 교수는 “HWP 버전의 아래아한글을 사용해 작성된 문서는 국제 표준 포맷을 쓰지 않아 챗GPT 등 대규모언어모델(LLM)이 이를 데이터화하지 못하는 어려움이 있다”면서 “한글과컴퓨터가 3년 전부터 개방형 문서형식을 따르고 있지만, 이전 문서를 읽으려면 변환 작업을 거쳐야 한다”고 말했다.

아래아한글을 고집하고 있는 정부기관도 과거에 작성된 문서를 AI에 활용하기 위해서는 별도 작업이 필요하다. 일례로 과학기술정보통신부가 진행 중인 ‘초거대 AI 활용을 위한 아래아한글 문서의 데이터화 및 학습모델 설계 연구(예산 7200만원 투입)’가 있다. 이는 아래아한글 문서를 AI LLM이 학습할 수 있는 형태로 데이터화하는 작업이다. 과기정통부는 올해 안으로 초거대 AI 학습과 질의응답에 활용될 다양한 형태의 아래아한글 문서를 데이터로 변환할 예정이다. 가공 프로세스 설계안 구성을 위한 자료를 수집하고, 설계안을 도출해서 실증까지 마친다는 방침이다.

프로젝트는 과기정통부 문서 중 외부 공개가 가능한 문서를 대상으로 한다. 공개된 자료를 학습데이터로 만들어서 향후 업무의 전산화, 효율화를 위해 실증을 해본 후 향후 내부 자료로 영역을 확장할 계획이다. 데이터화에 성공할 경우 타부처로 확산될 가능성도 있다. 과기정통부 관계자는 “빅테크 기업의 LLM은 아래아한글 문서를 잘 인식하지 못하고, PDF 등을 통해 자료를 수집한다”면서 “내부적으로 축적된 문서를 데이터화하기로 했다”고 설명했다. 그는 이어 “현재 아래아한글 문서 자체가 2차원 데이터로 이를 LLM이 학습하면 키워드 검색 수준의 결과만 나온다. 문맥 검색도 가능하도록 3차원 데이터로 만드는 작업”이라고 덧붙였다.

이경전 경희대 빅데이터응용학과 교수는 “정부 문서를 AI에 활용하는 것은 좋은 취지”라면서도 “하지만, 아래아한글로 문서를 연다는 게 특별한 기술을 요구하는 것은 아니라 데이터 범위를 제한해 프로젝트를 진행하는 것은 실용성, 프로젝트 포괄성 측면에서 아쉽다”고 말했다.

◇ “공공데이터 활용, 생성형 AI 시대에 뒤쳐질 수밖에”

정부가 아래아한글을 고집하게 된 시점은 지난 1998년 무렵부터다. 당시 이찬진 한글과컴퓨터 사장은 경영부실로 아래아한글 프로그램 개발을 포기하면서 미국 마이크로소프트(MS)로부터 투자 계약을 검토했다. 하지만, 벤처기업협회가 중심이 돼 범국민적으로 ‘아래아한글을 살려야 한다’는 성명서를 냈고, 한글학회 등 15개 단체가 참여해 한글지키기 국민운동본부가 결성됐다.

당시 본부와 한글과컴퓨터는 성명서를 발표하면서 이 전 사장의 퇴임과 경영개선 계획을 발표했다. 한글과컴퓨터에 100억원 규모의 투자를 단행하는 대신 MS와의 합의를 파기했다. 이와 함께 정부와 공공기관이 앞장서 소프트웨어 정품 사용운동을 전개할 것을 제안했다. 국내 소프트웨어 산업을 발전시키기 위해서는 공공부문이 정품 사용에 모범을 보여야 한다는 주장이 오늘날 정부 및 공공기관에서 아래아한글을 사용하게 된 시초가 됐다.

하지만 행정안전부는 정부부처 및 산하기관 대다수에서 아래아한글을 사용하는 것은 맞지만, 공식적으로 의무사항은 아니라는 입장이다. 행안부 관계자는 “행안부의 행정업무 운영 및 혁신에 관한 규정에 문서의 작성방법 절차에 대한 설명이 나오는데, 여기에 특정 프로그램을 써야 한다는 것은 없다”면서도 “표나 각종 편집 등 편의성 측면에서 정부기관이 아래아한글 문서를 많이 사용하는 것”이라고 설명했다. 또다른 정부 관계자는 “정부기관 중 아래아한글 문서를 안 쓰는 곳이 있느냐”면서 “규정에 없어도 여전히 의무라고 봐야 한다”고 설명했다.

정부가 AI 산업 선도를 목표로 하고 있고, 국민들의 정보 활용 등을 감안하면 아래아한글 문서를 고집하는 관행에서 벗어나야 한다는 의견도 있다. IT업계 관계자는 “세계적으로 통용되지 않는 아래아한글 문서를 정부가 고집하는 것은 세계화, 글로벌 추세에 맞지 않는다”며 “정부기관이 아래아한글을 고집한다면, 공공데이터 활용이나 생성형 AI 시대에도 뒤처질 수밖에 없다”고 말했다.

이민석 국민대 소프트웨어학부 교수는 “정부가 데이터를 읽을 수 없거나 편집이 안 되는 형태의 특정 플랫폼, 운영체제(OS)를 쓰는 것은 국민들의 불편으로 이어진다”면서 “정부가 오픈 플랫폼을 썼다면 별도의 데이터화 프로젝트를 진행할 필요도 없을 것”이라고 했다. 이 교수는 이어 “리브레오피스(LibreOffice)처럼 어디에서나 활용 가능한 오픈소스 솔루션을 고민해 봐야 한다”면서 “이를 통해 표준화된 결과물을 얻는 것은 물론이고 데이터 관리에도 도움이 될 것”이라고 말했다.

조선비즈에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

AI 시대에도 ‘아래아한글’ 집착 못 버리는 정부… 공공데이터 활용 못하고 글로벌 트렌드 뒤처져