[김정호의 AI시대의 전략] 사람처럼 우리말 하는 인공지능… 그 이름을 ‘훈민정음’이라 하자

김정호 KAIST 전기·전자공학과 교수 2021. 1. 13. 03:08
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

이 기사는 언론사에 의해 수정되어 본문과 댓글 내용이 다를 수 있습니다.

변수 1750억 가지 가진 ‘GPT-3’ 등 ‘자연어 인공지능’ 속속 등장
사람처럼 추론, 행동 예측… 인간 사이 소통도 AI 필요해질 것
천문학적 자원 투입 필요해 극소수 기업·국가만 개발할 수 있어
우리 고유 문화·정신 지킬 국가 차원의 인공지능 전략 서둘러야

1980년대 초반 대학생 때 전산학 수업에서는 컴퓨터 프로그래밍에 펀치카드를 사용했다. 종이에 구멍을 뚫고 카드를 수십 장 혹은 수천 장 고무줄로 묶어서 전산실에 제출했다. 실수나 오류가 생기면 다음 날 다시 펀치카드를 작성해서 전산실에 냈다. 당시 컴퓨터와 대화할 때 쓴 프로그래밍 언어는 ‘포트란(FORTRAN)’이라는 공학 계산용 언어였다. 포트란은 1950년대 말 IBM이 개발했다. 수식 계산에 특화된 프로그래밍 언어다. 출력은 종이에 인쇄돼 나왔다. 그 당시 펀치카드는 컴퓨터와 대화하는 매개체였고 포트란은 컴퓨터와 소통하는 언어였다. 하지만 세상에 고정된 것은 없다. 가까운 미래에는 이렇게 컴퓨터와 소통하는 작업도 ‘인공지능(AI·Artificial Intelligence)’이 대신할 전망이다.

자연어 분야 인공지능(AI) 기업들 / 그래픽=김하경

AI 없이는 인간 사이 소통도 어려워져

인공지능이 인간의 언어를 이해하고, 해석하고, 번역하며, 작문도 대신하기 시작한다. 그뿐만 아니라 인간의 언어와 생각을 이해하고 컴퓨터 프로그램 코딩도 직접 할 수 있다. 이렇게 되면 인간 사이의 소통마저도 인공지능 없이는 불가능하게 된다. 이미 지금도 스마트폰 없이는 인간 간의 소통이 거의 불가능하다.

인간 사이에서 쓰는 언어를 ‘자연어(自然語·Natural Language)’라 부른다. 아주 오랜 세월에 걸쳐 자연적으로 만들어진 언어다. 이런 인간의 언어를 컴퓨터가 이해하도록 하는 변환 기술을 ‘자연어 처리(NLP·Natural Language Processing)’라고 부른다. 이제 이 자연어 처리 작업을 인공지능이 직접 할 예정이다. 그뿐만 아니라 인공지능은 인간의 문맥을 파악하고, 언어 집단의 상식도 갖고, 추론도 하면서, 다음으로 어떤 행동과 대답을 할 것인지도 예측하려 한다. 결국 컴퓨터가 궁극적으로 인간의 두뇌를 대체하려면 인간처럼 자연어를 사용할 수 있는 인공지능이 있어야 하기 때문이다. 궁극적으로 인공지능의 완성은 ‘자연어 인공지능’ 확보에 달려 있다.

자연어를 이해하는 인공지능망은 ‘순차적 데이터(Sequential Data)’를 판독하거나 번역하는 기능이 필요하다. 인간의 언어는 단어 순서가 매우 중요하다. 이런 데이터 번역과 처리에 특장을 갖고 있는 자연어 처리 신경망이 ‘순환 신경망(RNN·Recurrent Neural Network)’이다. 최근 혁신 사업가 일론 머스크가 설립한 인공지능 연구소 ‘오픈AI’는 여기서 더 진보한 자연어 인공지능 모델인 GPT-3를 개발했다. 이 모델은 단어나 문장 전체의 특징(Feature)을 인공지능망을 통해 서로 연결하며 이해한다. 여기에 더해서 각 단어나 문장 간의 주목도(Attention)를 연결망으로 구현하고, 그 중요도(Weight)를 변수화해서 학습한다. 학습에는 책 한 권, 도서관 책 전체가 이용되며, 학습을 통해 이 연결망의 변수들이 결정된다. 이런 과정을 거쳐 글의 의미, 함의와 문맥까지 파악하는 능력을 지닌 인공지능이 태어나게 된다.

우리 문화·정신 지켜줄 ‘한글 인공지능'

“그 동물은 길을 건너지 않았다. 왜냐하면 그것은 너무 피곤했기 때문이다”라는 문장이 있다. 그리고 여기서 ‘그것’이 무엇이냐는 질문을 받았다고 가정해 보자. 이 질문에 답하려면 글 전체의 문맥을 파악해야 한다. 고급 인공지능이 필요하다. 이제 자연어 인공지능 GPT-3는 이러한 능력을 갖게 된다.

그런데 GPT-3는 1750억 가지나 되는 엄청난 변수를 가지고 있다. 단어, 문장, 문단의 특징과 의미, 함의, 중요도까지 모두 서로 연결해야 하기 때문이다. 1회 학습 비용은 50억~150억원 수준으로 추산된다. 그래서 이 모델을 개발하고 운영하기 위해서는 대량 데이터와 컴퓨팅 능력, 인공지능 전문가들의 참여가 필요하다. 따라서 GPT-3 정도의 인공지능 자연어 모델을 개발할 수 있는 기업과 국가는 매우 소수가 될 수밖에 없다. 이렇게 자연어 분야에서 새로운 ‘인공지능 격차(AI Divide)’가 발생한다. 우리도 한글에 기반한 고유의 독자적 자연어 인공지능 개발이 필요하다. 그 인공지능 이름을 ‘훈민정음(訓民正音)’으로 정하면 좋겠다. 인공지능 GPT-3를 통해 우리 국민이 서로 대화하고 소통하고, GPT-3가 만든 교재로 우리 후손을 교육할 수는 없지 않은가. ‘한글’로 이루어진 우리 고유의 문화와 정신을 어떻게 지켜낼지 국가 차원의 인공지능 전략이 절실히 필요하다.

인공지능은 아직 시()를 쓰지 못한다

필자는 윤동주의 ‘별 헤는 밤’과 김소월의 ‘엄마야 누나야’, 그리고 이육사의 ‘청포도’를 좋아하는 시(詩)로 꼽는다. 언제 읽어 봐도 항상 감동이 밀려온다. 우리처럼 인공지능이 이렇게 한글로 쓴 시를 읽고 가슴이 뛰려면 ‘별’ ‘엄마’ ‘누나’ ‘강변’ ‘모래’ 그리고 ‘은쟁반’과 ‘하이얀 모시’를 학습해야 한다. 그 느낌, 촉감, 눈빛, 소리, 냄새와, 영상, 그리고 함께한 기억을 갖고 있어야 한다. 그러려면 한여름 홍천강 모래사장에서 물놀이한 추억도 있어야 하고, 안동 이육사 박물관 근처의 청량산 향기와 낙동강 물결에 반사되는 따가운 햇살을 경험해야 한다. 인공지능이 이와 같은 시를 쓰려면 아마 무한대에 가까운 데이터와, 기억 용량과, 컴퓨터 성능이 필요하다. 다행히 아직 그 시기까지 오지는 않았다. 빛나는 ‘한글’과 ‘시’ 그리고 ‘시인’에게 감사한다.

Copyright © 조선일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?