한글 호환 못하고 '똠·펲·찦'자는 출력안돼.. 유니코드 이후 비로소 해결

기자 2022. 1. 10. 10:40
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

그래픽 = 권호영 기자

■ 기술이 지나간 자리 - ⑨ 조합형·완성형 한글코드

초·중·종성 조합으로 가능한 글자 수 1만1172자… 80년대 초 조합형·완성형 27종 난립하며 문서·기기 공유못해

1987년 ‘KS 완성형’ 만들었지만 2350자만 입·출력되는 한계 여전… 1995년 글로벌 기본 문자판 확정뒤 완전하게 표현

“국산 개인용 컴퓨터는 한글을 판독할 수 있는 내부 부호 체계가 기종마다 달라 서로 통신이 되지 않고 다른 컴퓨터에 쓰이는 소프트웨어를 옮겨 쓸 수도 없다.”

1989년 2월 한 일간지에 실린 ‘막오른 컴퓨터 대중화 시대’라는 제하의 기사 일부다. 지금은 상상하기 어려운 일이지만, 한글의 모든 글자를 컴퓨터에 입력하고, 또 그 데이터를 다른 사람에게 파일로 보내 읽게 하는 일이나, 네트워크를 통해 주고받는 일이 자유롭게 된 것은 생각보다 꽤 최근의 일이다.

1980년대 후반에서 1990년대 초반까지 IBM 호환용 컴퓨터의 사용자들은 ‘한글 카드’라는 추가 하드웨어를 구입해 사용하곤 했다. 개인용 컴퓨터에서 한글을 입력하기 위해, 혹은 다른 컴퓨터에서 작업한 문서를 읽기 위해 한글 카드를 따로 구매해 설치해야 했던 것이다. 역시 지금은 거의 사라진 일이지만, 꽤 오랫동안 ‘똠방각하’ 같은 단어를 문자 메시지로 보내면, 그 중 ‘똠’이라는 글자는 전송되지 않았고, 같은 글자의 폰트를 조금 다른 폰트로 설정하려고 했을 때 어떤 글자들은 명조체와 같은 기본 글꼴로 바뀌었다. 한글 카드라는 지금은 사라진 기술, 그리고 ‘똠방각하’의 비극은 사실 사회적으로 뜨겁게 논의됐던 한글문자 코드 문제라는 공통된 원인이 있었다. 이는 일견 꽤 기술적인 문제처럼 보이지만, 한편으로는 우리의 한글을 컴퓨터에서 어떻게 제대로, 그리고 바르게 구현할 것인가라는 크고 무거운 주제이기도 했다.

전자계산기 혹은 컴퓨터가 처음으로 한국에 들어온 것은 1968년이다. 1971년 한국과학기술연구소(KIST)의 성기수(成琦秀) 박사가 한글 프린터를 개발한 것을 시작으로, 한국의 컴퓨터 역사에서 1960년대 후반부터 1990년대 초반까지 중요한 장면마다 빠지지 않고 등장했던 문제는 바로 어떻게 한글을 제대로 표현할 수 있는가였다. 컴퓨터란 단순히 말해 어떤 정보를 입력하고, 계산해 출력해내는 장비인 만큼, 사용자의 언어를 표현하는 것이 가장 중요한 과제인 것은 어쩌면 당연한 일이기도 하다. 컴퓨터에 글자를 저장하고 다시 불러들여 화면이나 인쇄기에 출력하는 과정에서 가장 기본은 문자 코드판을 정의하는 것에 있다. 문자 코드판이란 컴퓨터가 이해할 수 있는 코드와 특정 문자와 짝을 맞춘 일종의 모르스 부호판과 같은 표를 말한다. 예를 들면, 0011은 ‘가’, 1100은 ‘나’가 된다고 미리 약속을 해두고, 컴퓨터에 저장할 때는 0011과 같은 코드를 저장하고, 불러올 때는 문자 코드판을 참고해 해당 글자를 프린터나 화면으로 출력해내는 것이다. 그런데 만약 이 문자 코드가 다르면, 누군가 저장한 문서를 읽어낼 수도, 상대방과 교신을 할 수도 없게 되는 것이다. 그런 맥락에서 문자 코드만큼 강한 네트워크 외부성(소박스 용어설명)을 보이고 표준화가 요구되는 분야도 없다.

생각해 보면 컴퓨터상에서 한글을 구현하는 것은 그리 녹록한 문제가 아니다. 컴퓨터의 사실상 표준이자 미국의 표준인 아스키(ASCII) 코드의 경우, 대소문자 알파벳 정도만 넣으면 되지만, 한글은 어떻게 해야 할까? 한글은 현존하는 문자 체계 중 매우 드물게 각각의 음절을 자음과 모음의 규칙성이 있는 결합으로 만든다. 현대 한글의 초성(19자), 중성(21자), 종성(28자)을 모두 사용하면 조합 가능한 한글의 글자 수는 무려 1만1172자에 달한다. 이 상황에서 한글문자 코드를 만드는 방법은 크게 두 가지다. 하나는 자음, 모음 각각을 글자판에 넣고 출력을 할 때 조합하는 방법(조합형)이고, 다른 하나는 완성된 글자를 저장하는 방법(완성형)이다. 조합형의 경우 문자 코드판은 간단하지만, 입출력 과정에서 글자를 조합하는 처리 과정을 개발해야 하고, 완성형은 무척 큰 문자 코드판을 운영해야 하는 문제가 생긴다.

1980년대 초반부터 사무용 컴퓨터의 보급이 늘면서 다양한 개발사는 저마다 다른 한글 코드를 개발했다. 몇 차례에 걸친 정부의 표준화 시도가 실패로 돌아간 1980년대 중반에는 무려 27종의 한글 코드가 난립하게 됐다. 어떤 개발사는 완성형을, 어떤 개발사는 조합형으로 한글 코드를 만들고, 같은 완성형 혹은 조합형이라도 문자 코드판이 다르면 문서를 교환할 수도, 프린터나 모니터 등의 호환기기를 공유할 수도 없는 극히 혼란한 상황에 이른다. 또 완성형이라도 당시의 아주 제한적인 컴퓨터 용량의 한계로 인해 1만1172자를 모두 표현할 수 있는 코드는 없었다. 1987년 정부는 ‘KS 완성형 코드’로 불리는 KSC-5601:1987이라는 표준을 정하게 되는데, 범정부 거대 정보화 프로젝트였던 국가기간전산망사업에서 사용할 표준 한글 코드가 필요했기 때문이다. 사실상 대부분의 장비를 수입해 사용해야 하는 상황에서 정부는 완성형 방식을 선택했고, 여기에 19가지 사전, 신문, 교과서 등의 데이터를 기반으로 99.99%의 빈도수를 갖는 한글 2350자만을 포함시켰다. ‘KS 완성형 코드’에는 한자도 4888자가 포함돼 있었는데, 정부 문서에서 사용되는 한자나 이름에 사용되는 한자를 고려한 선택이었다.

이 컴퓨터 코드가 사회적 논쟁으로 떠오른 것은 개인용 컴퓨터의 보급이 급격하게 늘어난 1980년대 후반부터다. 1990년대 초반에 이르러 절반 이상의 컴퓨터 사용자가 사무용이 아닌 개인용으로 컴퓨터를 이용하게 되자 한글 코드의 문제는 단순히 행정 업무상의 불편함을 넘어 편지를 쓰고, 소설을 쓸 때의 표현력을 제약하는 문제가 됐다. 한글 코드 변환 소프트웨어가 탄생한 것도 이 무렵의 일이었다. 소프트웨어 개발자들은 운영체제마다 다른 한글 처리 방식에 종속되는 것을 피하기 위해 소프트웨어 자체에 한글 코드를 내장한 프로그램을 개발하는 경향이 생겼는데, 그 대표적인 소프트웨어가 1989년 서울대 공대생이었던 이찬진, 김택진 등이 개발한 ‘한글’ 워드프로세서와 ‘이야기’ 등의 통신 소프트웨어들이었다. ‘한글’ 워드프로세서는 자체 한글을 내장하고, 조합형 글꼴을 지원해 모든 한글을 표현할 수 있어서 사용자들의 열렬한 환영을 받았다.

1990년대의 개인용 컴퓨터의 확산과 맞물려, 하이텔, 천리안 등의 PC통신이 서비스가 급격하게 확산되자 한글 코드 문제는 사회적 문제의 하나로 떠오른다. 1990년 새로 설립된 문화부의 초대 주요 정책 중의 하나가 ‘한글 코드 및 자판의 개선’일 정도로 주요한 정책 의제가 됐고, 몇 년 후 한글 코드 문제는 공업진흥청, 교육부, 상공부, 과학기술처, 문화부, 체신부가 모두 관여해야 하는 범정부적 문제로 받아들여졌다. 1992년에 조합형 코드가 표준안에 부록으로 채택되며 논쟁이 어느 정도 일단락되기는 했지만, ‘KS완성형 한글 코드’는 이미 대부분의 컴퓨터 시스템의 사실상 표준으로 자리 잡아 널리 퍼져 있었다. 이는 1만1172자의 한글 중 2350자만이 입력, 출력되는 시스템이 대부분이라는 것을 의미했다. 당시 ‘찦차를 타고 온 펲시맨과 쑛다리 똠방각하’라는 문장이 유행했는데, 여기에서 ‘찦’ ‘펲’ ‘쑛’ ‘똠’과 같은 좀처럼 잘 사용되지는 않지만, 그것이 완전히 표현이 안 된다면 문제가 될 수밖에 없는 일이 많았다. 1990년 ‘똠방각하’라는 소설을 원작으로 한 드라마가 방영됐는데, 이를 KS완성형 코드 기반에서는 제목조차 쓸 수 없었고, 음료 ‘펩시콜라’의 원래 브랜드 이름이었던 ‘펲시’는 상품 판매 시스템에 등록될 수 없었다. 이후에도 문자 메시지로 ‘똠방각하’를 보낼 수 없었던 이유는 구형 휴대전화의 내장된 문자 코드나 이를 매개하는 통신 시스템의 한글 코드가 모두 KS완성형을 기반으로 구현됐기 때문이었다.

이 모든 문제를 근본적으로 해결하게 된 계기는 한국 외부로부터 왔다. 마이크로소프트가 윈도우95라는 혁신적인 IBM 호환 운영체계를 출시했을 때, 한국의 관심은 새로운 운영체계상에서 얼마나 많은 한글 글자를 쓸 수 있는가에 쏠려 있었다. 마이크로소프트는 한글 코드의 문제를 인지하고 있었지만, KS완성형과의 호환성을 고려하지 않을 수 없었고, 모든 1만1172자가 아닌 기존 완성형 코드에서 한글 몇천 자를 추가한 ‘확장 완성형’을 소개했다. 이 구현 방식은 환영은커녕 “한글마저 외국인 손에” “기만적인 한글 코드”라는 정도의 표현이 나올 만큼 엄청난 반발을 불러왔다. 윈도우95를 둘러싼 잡음은 외국 정보기술(IT)기업이 한국 시장에 진입하는 데 있어서 온전한 한글을 구현하는 것이 핵심 쟁점임을 인지시켜 주는 사건이었다.

최종적인 문제의 해결은 1995년경 이뤄진다. 유니코드(Unicode)라고 부르는 컴퓨터 업계 전체의 문자 코드를 표준화하는 글로벌 컨소시엄에서, 모든 한글 1만1172자를 포함하도록 결정한 것이다. 세계 모든 문자를 넣어야 하는 기본 문자판(BMP)의 크기가 6만여 자인데, 이 중 한글 1만1172자가 포함된 것이다. 물론 유니코드의 초기 버전은 KS완성형만을 포함하고 있었다.

그런데 이 한글 코드 논쟁을 겪은 한국은 1995년 당시 스위스 제네바에서 열린 유니코드 회의에 문화부, 공업진흥청의 정부 관계자들과 함께 강태진 등 ‘한글’ 개발자들을 파견했다. 당시 회의록을 보면, 한국 대표단은 ‘한국의 제안은 완전한 한글 문자 체계이고, 한국은 어떤 형태로는 양보할 생각이 없다’는 의사를 강하게 표현한다. 한국 시장에서 큰 실패를 겪은 마이크로소프트의 강력한 지지에 힘입어, 드디어 한글은 완전한 형태로 유니코드에 포함될 수 있었다. 이렇게 만들어진 코드판은 지금 우리가 사용하는 사실상 거의 모든 기기에 내장돼 있다.

“조선 말은 우리 겨레가 반만년 역사적 생활에서 문화 활동의 말미암던 길이요 연장이요 또 그 결과다. 그 낱낱의 말은 다 우리의 무수한 조상이 잇고 이어 보태고 다듬어서 우리에게 물려 준 거룩한 보배이다.” 1947년 조선어학회가 편찬한 ‘우리말 큰사전’의 머리말 첫 문단의 일부다. 유니코드에 온전한 1만1172자의 한글이 모두 포함되면서, 한글 카드라는 물리적 기기도, 한글 코드를 조합형으로 만들어야 하는지, 완성형으로 만들어야 하는지에 대한 논쟁도 사라졌다. 한글 코드의 이야기는 거친 논쟁과 논란 속에서 디지털 사회에서 한글은 어떠한 모습이어야 하는지에 대한 사회기술적 상상에 대한 합의가 어떤 역할을 했는지 잘 보여준다. 분명한 것은 우리가 오늘 사용하고 있는 이 디지털 세상 속 한글은 그저 당연하고 자연스럽게 만들어진 것이 아니라, 기술의 여명기에 많은 이가 치열하게 잇고 보태고 다듬어낸 결과인 것이다. 그렇게 한글은 디지털 사회에서 그 온전한 모습으로 ‘길’이고, ‘연장’이 될 수 있었던 것이다.

박동오 사회정보학 박사·기술정책자문

■ 용어설명

네트워크 외부성(Network Externalities) : 어떤 기술이 더 널리 사용될수록 기술의 효용성이 특히 증가하는 성질을 말한다. 예를 들어 통신망에서 서로 호환될 수 없는 몇 가지 기술이 존재한다고 가정했을 때 점유율에서 우위를 보이는 특정 기술의 연결 가능한 상대방의 범위가 점점 커지면, 사용자는 어쩔 수 없이 그 기술을 선택하게 되는 ‘잠금 효과(lock-in effect)’가 나타나고 이때 네트워크 외부성이 강하다고 말할 수 있다. 컴퓨터 및 통신 분야에서 네트워크 외부성은 표준화를 해야 하는 이유를 설명하는 맥락에서 자주 쓰인다.

[ 문화닷컴 | 네이버 뉴스 채널 구독 | 모바일 웹 | 슬기로운 문화생활 ]

[Copyrightⓒmunhwa.com '대한민국 오후를 여는 유일석간 문화일보' 무단 전재 및 재배포 금지(구독신청:02)3701-5555 / 모바일 웹:m.munhwa.com)]

Copyright © 문화일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?