진화의 본질은 정보…데이터는 어떻게 지식이 되나

주철현의 커넥션
(25) 정보 엔트로피

정보의 불확실성에서 비롯된 공포를 해소하려는 욕망이 호기심의 근원이며, 정보는 이를 치료하는 특효약이다. 픽사베이

“정보는 불확실성의 해소다.”

- 클로드 섀넌 (1916~2001) -

‘호기심이 고양이를 죽인다’는 말처럼, 정보에 대한 갈망은 죽음의 공포도 극복하는 지적 본능이다. 호기심으로 가득한 어린이들은 비밀 놀이를 좋아한다. 시시콜콜한 내용을 비밀이라 정하고 친한 친구끼리 몰래 공유한다. 하지만 무리와 어울리지 못하는 아이는 비밀이 궁금해 잠을 설치며 괴로워한다. 비밀이 진실인지 혹은 가치가 있는지는 중요하지 않으며, 모두가 아는 정보를 나만 모른다는 비대칭성이 문제가 된다. 정보의 비대칭성은 일방적 불확실성이다. 구사일생의 생존 경쟁을 거친 인간의 두뇌는 불확실성에 본능적 공포를 느낀다. 이런 공포를 해소하려는 욕망이 호기심의 근원이며, 정보가 이를 치료하는 특효약이다.

인간의 고등지능은 유전자 진화를 통한 선천지능과 문명을 통한 후천지능의 총합이다. 그리고 후천지능은 인류가 누적한 방대한 지식 정보를 통해 획득된다. 정보를 의미하는 인포메이션(information)은 머리 속(in)에 무언가를 형성시킨다(formation)는 합성어다. 이는 심층신경망이나 뉴런 세포를 몰랐던 시절부터 정보와 회로 형성의 관계에 대한 통찰이 있었다는 것을 의미한다. 생태계와 문명을 관통하는 진화의 본질은 정보다. 생태계에서는 유전 정보가, 문명에서는 지식 정보가 진화한다. 하지만 정보를 담을 수 있는 미디어와 전달되는 방식에는 큰 차이가 있다. 유전자에 담겨 있는 유전 정보는 생물 개체가 살아남아 번식에 성공해야 후대로 전달이 가능하다. 하지만 문명의 지식 정보는 통신 미디어에 담겨 공간을 초월해 수평 전달되고, 기록을 통해 시간을 초월해 수직으로 후대로 전달된다.

지식 정보의 중요한 특성은 불변성이다. 두뇌에 저장된 기억은 시간이 지나면서 오류가 발생한다. 구전을 통해 전승되는 것도 한계가 명확하다. 하지만 문자로 기록되면 시공간을 초월하는 불변성을 획득할 수 있다. 인류 문명과 함께 시작된 문자 정보는 세대를 초월한 지식 축적과 발전에 가장 큰 역할을 했다. 시대가 변해 문자의 해석이 틀리는 경우는 있어도, 기록된 정보가 변하지는 않는다. 문자 정보에는 두 가지 규칙이 있다. 첫째는 순서대로 나열해 정보를 기록하는 문자 집합이다. 영어는 알파벳, 한글은 자모가 연결되어 정보를 담게 된다. 둘째는 글을 읽어가는 방향이다. 즉 방향과 순서가 문자의 연결에 의미를 부여하는 것이다. 이처럼 정보를 담은 문자열을 서열(sequence)이라 한다.

서열에 담긴 정보의 양은 확률로 측정하게 된다. 확률은 노름이 기원이라 수학치고 재미있는 편이다. 가끔 100% 확률이라는 표현이 쓰이지만 퍼센트는 확률이 아닌 빈도의 단위다. 수학 교과서에 확률과 통계로 묶여 있지만 통계는 과거에, 확률은 미래에 관심을 두고 접근한다. 내일 아침에 동쪽에서 해가 뜰 확률은 1, 서쪽에서 뜰 확률은 0이다. 확률은 절대 일어나지 않을 0에서, 반드시 일어날 1 사이의 값을 가진다. 학창 시절 동전 던지기 기억을 더듬어 보자. 동전을 두 번 던져 연속으로 앞면이 나올 확률에 대해, 4분의 1 혹은 0.25가 떠오르면 충분하다. 동전을 한 번 던지면 ‘앞, 뒤’ 중 하나가 나온다. 두 번을 던지면 ‘앞앞, 앞뒤, 뒤앞, 뒤뒤’ 네 가지 중 하나가 나온다. 이렇게 나올 수 있는 모든 가능성의 조합을 경우의 수라고 한다. 따라서 두 번 연속으로 앞이 나올 확률은 네 가지 경우 중 하나이니 0.25다.

그럼 동전을 100번 던졌을 때 모두 앞면이 나올 확률은 어떨까. 가능한 서열에 대한 경우의 수를 앞앞…앞, 앞앞…뒤,... 이런 식으로 세면 평생 걸려도 못 끝낸다. 만약 백 자리 서열 한 개 적는 데 1초가 걸린다면, 모두 세는데 1,267,650,600,228,229,401,496,703,205,376초가 걸린다. 단위를 바꿔보면 40,196,936,841,331,475,186,983년이 걸린다. 우주의 나이를 단위로 바꿔보면 2,955,657,120,686번이다. 빅뱅이 시작되어 지금까지 시간을 약 30조 반복해야 끝나는 시간이다. 하지만 이 경우의 수를 학창시절 배운 순열을 이용하면 간단히 구할 수 있다. ‘앞, 뒤’ 둘 중 하나인 동전 던지기 서열이 한자리 늘면 경우의 수는 두 배씩 늘어난다. 따라서 동전을 백번 던지는 경우의 수는 2를 100번 곱하면 된다. 이처럼 수학은 불가능을 가능하게 만드는 마술 같은 힘이 있다.

디지털 시대에서는 모든 정보가 0과 1의 서열로 저장이 가능하다. 픽사베이

정보를 어떻게 하면 효율적으로 전달할까

유난스럽게 동전 던지기를 이야기한 것은 디지털 시대에서는 모든 정보가 0과 1의 서열로 저장이 가능하기 때문이다.

현대 문명의 필수품인 컴퓨터가 데이터를 한 번에 처리하는 능력을 비트라고 한다. 이는 0과 1로 구성되는 디지털 데이터의 기본 단위다. 위의 동전 던지기 결과, 서열에서 ‘앞, 뒤’를 ‘0,1’로 치환하면 100비트 디지털 데이터가 된다. 디지털 데이터가 너무 간단해 세상의 정보를 담기에는 부족하지 않을까 걱정할 필요는 없다. 최근 64비트 컴퓨터가 한 번에 다룰 수 있는 크기는 지구에 존재하는 모든 모래알에 번호를 붙이고 남는 범위다. 100비트라면 우주의 모든 별에 번호를 붙이고 남는 범위를 가진다. 이처럼 이진수에 불과한 간단한 비트를 이용해 무한에 가까운 다양성을 만들 수 있는 것이 서열이다. 영어는 알파벳 26개가 기본 단위다. 햄릿 같은 문학 작품도 알파벳이 연결되어 단어, 문장, 문단이 단계적으로 구성된 26진수의 서열 정보다. 이미지의 경우도 삼원색의 값을 화소 단위로 연결한 서열 정보로 변환할 수 있고, 동영상은 이런 이미지 정보를 순서대로 연결한 서열 정보로 저장된다. 우리가 접하는 세상의 모든 정보는 서열이며, 진수 변환을 통해 디지털 정보로 통신하고, 저장되고, 분석된다.

정보 공학은 정보의 전달 비용 절감을 위해 시작되었다. 혼자 알고 있는 지식은 비밀이지 정보가 아니다. 정보의 가치는 누군가에게 전달되어야 발생한다. 그런데 정보 전달은 공짜가 아니다. 통신은 전보가 발명되면서 빛의 속도로 도약하였다. 그런데 처음 전보가 상용화되었을 때 비용은 지금 통신비용과는 비교도 되지 않을 정도로 비쌌다. 사람들은 비용을 아끼기 위해 글자를 최대한 줄여 보냈다. 예를 들면 ‘아프다는 소식을 들었는데 빨리 나으시길 바랍니다’라는 안부를 ‘기쾌유’로 보내는 식이었다. 이는 현대 디지털 통신에서도 여전히 중요한 정보 압축의 일종이다. 지금 핸드폰으로 부담 없이 동영상을 보는 것도 이 정보 압축 덕분이다.

가장 간단한 송신자, 통신, 수신자로 구성된 정보 통신 시스템을 생각해보자. 송신자는 정보를 전기 신호에 담아서 보낸다. 통신은 전기 신호를 주고받는 수단이다. 수신자는 전기 신호를 통해 정보를 받게 된다. 여기서 비용은 통신에서 발생한다. 따라서 비용을 절약하려면 송신자는 정보를 압축하고, 수신자는 압축을 풀어서 원래 정보로 복구해야 한다. 이때 송신자와 수신자가 압축 방법에 대해 미리 약속해야 정보가 제대로 전달된다. 전보의 예에서 ‘기쾌유’의 뜻이 통하려면 송수신자가 모두 한자에 익숙해야 하는 것과 마찬가지다. 이처럼 압축 방법에 대한 약속을 프로토콜(protocol)이라 한다. 복원으로 원래 정보가 완벽하게 복구되는 프로토콜이 사용된다면 무손실 압축이라 한다. 하지만 이 경우는 압축을 많이 할 수가 없다. 반대로 손실 압축은 원래 정보에서 드물게 나오는 부분을 버리고 압축한다. 따라서 압축을 많이 해서 통신 비용을 줄이면 데이터는 더 많이 손상된다. 정보 공학은 정보 손실도 최소화하면서 가능한 한 많이 압축할 수 있는 프로토콜을 연구하는 학문이다.

프로토콜 연구를 하려면 원본과 압축 데이터의 정보량을 비교해 압축률이 얼마인지 알아야 한다. 과학에서는 어떤 대상을 연구하려면 정량적 측정이 필수다. 예를 들어 열역학에서는 기체의 종류나 담겨 있는 용기에 상관없이 온도, 압력, 부피 등의 정량적 수치를 측정해 상관관계를 연구한다. 정보 공학에서도 마찬가지로 언어나 매체에 상관없이 담겨 있는 정보의 객관적 양을 측정할 수 있어야 한다. 그래야 정보량을 유지하면서 데이터의 크기를 최대한 줄일 수 있는 다양한 압축 프로토콜을 실험할 수 있기 때문이다. 이에 섀넌은 1948년 발표한 ‘통신의 수학적 이론’이라는 논문에서, 정보량의 척도로 서열의 확률적 기댓값을 사용하였다. 이것이 추상적 개념이 아닌 학문의 대상으로 정보를 다루기 시작한 접근의 시작이었다.

정보의 기댓값은 서열에 대한 놀라움을 확률을 통해 수치화한 개념이다. 만약 고양이가 ‘hi’ 라고 컴퓨터 키보드를 쳤다면 얼마나 놀라야 할까. 컴퓨터 키보드를 아무거나 무작위로 두 번 눌렀을 때 h와 i가 순서대로 눌러지는 것은 로또 2등 당첨보다 살짝 높은 확률이다. 깜짝 놀랄 정도는 되지만 고양이가 지능을 가지고 있다고 오버하기에는 부족하다. 그럼 강아지가 햄릿 13만자를 정확히 타이핑하면 얼마나 놀라야 할까. 무작위로 키보드를 두들겨 햄릿 전체 알파벳 서열이 나올 확률은, 사람이 콘크리트 벽을 통과할 확률이나 다름없다. 양자역학에서 일어나는 확률로 0이 아니지만, 현실에서는 일어나지 않는다는 의미다.

백번을 던져 모두 앞면이 나왔다면 정보 엔트로피는 0에 수렴한다. 위키미디어 코먼스

정보 엔트로피란 무엇인가

섀넌은 서열의 확률적 기댓값을 정보 엔트로피로 계산하였다. 디지털 정보 엔트로피도 확률과 마찬가지로 0에서 1의 값을 가진다. 확률의 놀라움은 일반적 놀라움과 약간 다르다. 강아지가 햄릿을 친다면 누구나 놀랄 것이다. 하지만 그것은 강아지가 햄릿을 쳐서 놀라는 것이지 햄릿이라는 정보에 대해 놀라는 것은 아니다. 햄릿의 정보 엔트로피는 0에 수렴하는데, 이는 절대 우연히 생길 수 있는 정보가 아니라는 의미다. 동전을 백번 던지는 예를 다시 생각해보자. 백번을 던져 모두 앞면이 나왔다면 정보 엔트로피가 0에 수렴한다. 이는 놀랄 일이 아니라 누군가 사기를 치는 것이다. 만약 문자를 모르는 외계인이 햄릿이 저장된 전파 데이터를 수신했다고 생각해보자. 외계인이 정보 엔트로피를 계산할 정도의 지능이 있다면, 영어를 몰라도 전파에 어떤 정보가 담겨 있다는 것을 파악할 수 있다. 반대로 우리가 외계인의 정보를 받을 때도 마찬가지다. 천문학자들이 우주에서 날아오는 전파를 분석해 외계 문명을 찾으려 시도한 적이 있다. 외계인의 언어를 몰라도 우주에서 수신된 전파의 정보 엔트로피를 계산해 보면 담겨 있는 정보량을 파악할 수 있기 때문이다.

정보 엔트로피가 섀넌의 생각보다 훨씬 강력한 개념이라는 것은 금방 드러났다. 이 개념을 접한 다른 영역의 과학자들이 열역학 엔트로피와 유사성을 발견하고 정보 엔트로피로 부르기 시작하였다. 물리적 실체와 추상적 정보가 대상이라는 차이가 있지만 두 개념의 수식은 서로 변환이 가능하다. 더 포괄적 개념의 정보 엔트로피는 통신 분야에서 정보학, 생물학, 전산학, 사회과학 등 전방위로 개념이 확장되었다. 우리 유전자에 담겨 있는 생명 정보 역시 핵산 4개의 알파벳으로 구성되는 서열이다. 따라서 정보 엔트로피 개념은 유전자 분석에도 적용할 수 있다. 유전자 분석 기법의 발전으로 서열 정보는 쉽게 얻을 수 있다. 하지만 방법적인 한계로 전체 유전자 길이에 비해 아주 짧은 서열 정보를 파편처럼 얻게 된다. 특히 과거 화석에서 검출된 유전자 서열의 경우 어느 부분인지 유추할 단서조차 없는 경우가 있다. 이때 유전자의 정보 엔트로피를 계산해보면, 그 서열이 얼마나 의미 있는 정보인지 쉽게 판단할 수 있다. 유전자에서 중요한 기능 정보 부위에 발생하는 돌연변이는 치명적이다. 따라서 이 부위에 발생한 돌연변이 유전자는 소멸하기 때문에 무작위 정보 엔트로피는 낮아지게 된다. 이는 기능을 발현하는 질서가 형성되었다는 것으로 해석할 수 있다.

문명이 고도화수록 정보 엔트로피는 낮아진다

인류 지식을 발전시켜온 학문이라는 집단 지성도 정보 엔트로피를 낮추는 행위다. 정보 엔트로피라는 개념 자체는 정보의 진실성과는 상관이 없는 개념이다. 예를 들어 뉴스에 대한 정보 엔트로피를 계산할 수 있다. 그런데 정보 엔트로피는 뉴스가 가짜인지 진짜인지 말해주지 않는다. 이는 열역학의 엔트로피처럼 단순 정량화 수치이기 때문이다. 따라서 다른 사실관계를 전달하는 뉴스가 많아진다는 것은 정보의 혼란도가 증가한다는 의미다. 반대로 일치하는 사실관계를 전달하는 뉴스가 많아질수록 정보 엔트로피는 낮아지면서 진실에 가까워진다. 즉 정보 엔트로피도 혼란도와 비례하며, 지식의 측면에서는 이해도에 반비례한다. 이해의 단계는 데이터(Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)로 구분할 수 있다. 데이터는 발생한 사건을 측정해 얻어지는 날 것 그대로 자료다. 정보는 측정한 데이터를 종합적으로 가공해 구체적 상황을 재구성한 것이다. 따라서 데이터 자체는 의미가 없고, 정보로 다듬어지면서 가치가 부여된다. 지식은 정보를 분석해 얻어낸 사건의 원인과 결과의 연관 법칙이다. 마지막으로 지혜는 지식을 이용하는 것을 의미한다.

이런 데이터, 정보, 지식, 지혜의 단계적 개념은 ‘DIKW 피라미드’(‘그림 1’의 아래 삼각형)로 그려진다. 그리고 이 피라미드를 동심원으로 확장하면 엔트로피와 이해도의 관계를 보여주는 이해의 동심원이 된다. 각 원의 면적은 정보 엔트로피의 크기와 비례한다. 개인의 후천적 지능이 지식 학습을 통해 발현되는 것과 동일하게, 문명의 집단 지능도 정보 엔트로피가 낮은 방향으로 탐구가 진행된다. 이해의 동심원에서 데이터에서 출발해 지식을 향해 단계적으로 진행되는 것이 학문의 진행 과정이다. 그리고 진행 단계에서 합의와 피드백이 반복되는 역동적 상호작용이 가장 활발한 학문 영역이 과학이다. 피라미드 단계의 위로 올라갈수록 이해도는 높아지면서 정보 엔트로피는 감소한다. 예를 들어 나무 아래에 앉아 있는데 사과가 머리에 떨어졌다면 단순한 관찰 데이터다. 이런 사건을 많이 측정해서 관찰된 모든 물체가 땅으로 떨어지는 것을 확인했다면 가치 있는 정보가 된다. 이 정보들을 분석해 찾아낸 중력의 법칙은 지식이 된다. 그리고 공사 중인 건물 아래 서 있지 않는 것은 지혜다.

하지만 정보 엔트로피가 낮다고 절대 불변의 진실을 의미하는 것은 아니다. 과학의 발전에 의해 지식이나 지혜는 언제라도 새로운 것으로 교체될 수 있다. 오컴의 칼날처럼 집단 지성의 진행 과정에서 관찰되는 엔트로피의 상대성만 확인이 가능할 뿐이다.

주철현 | 울산의대 미생물학·의학교육학 교수

이 기사에 대해 어떻게 생각하시나요?

한겨레에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

진화의 본질은 정보…데이터는 어떻게 지식이 되나