‘티끌 모아’ 다음에 올 말, 생성형 AI는 알고 있다 [인공지능 오디세이]
LLM, 트랜스포머, GPT, 파라미터…. 요즘 흔하게 쓰이는 용어들이지만 명확히 그 뜻을 이해하는 사람은 많지 않습니다. 인공지능 기술 현업에 종사하는 ‘개발자 M(필명)’이 생성형 AI의 기술 동향을 쉽고 재미있게 풀어내는 연재를 시작합니다.
1988년 음성인식기 개발에 박차를 가하고 있던 IBM의 한 연구실. 연구팀을 이끌던 정보이론의 대가 프레더릭 젤리넥(1932~2010)은 인식 성능이 좀처럼 오르지 않자 탄식하며 말했다. “언어학자 한 명을 해고할 때마다 음성인식 정확도가 높아지는구나.” 언어학자들이 만든 규칙이 인식기 개발에 큰 도움이 되지 않았던 것이다. 그의 말은 당시 인공지능 언어 처리 기술의 한계를 적나라하게 보여준다.·
그로부터 30여 년이 지난 지금 우리는 스마트폰에 말을 걸어 일정을 등록하고 AI 챗봇과 대화를 나누며 정보를 얻는다. 이런 놀라운 변화는 어떻게 가능했을까? 그 해답은 바로 언어 모델(Language Model)의 진화에 있다. 음성 비서, 자동번역, 텍스트 자동완성 등 다양한 서비스가 이 기술을 기반으로 작동한다.
언어 모델이란 컴퓨터가 인간의 언어를 이해하고 생성할 수 있게 해주는 도구다. 예를 들어 “티끌 모아“라는 표현이 주어졌을 때 인공지능은 그다음에 올 수 있는 가장 자연스러운 말을 예측한다. ”태산”이라는 단어가 높은 확률로 선택될 것이다.
1980년 이전 초기의 언어 모델은 규칙 기반이었다. 마치 문법책처럼 언어의 규칙을 일일이 프로그래밍해 넣는 방식이다. 하지만 이 방법은 한계가 명확했다. 언어의 모든 예외와 뉘앙스를 규칙으로 담아내는 것은 불가능에 가까웠기 때문이다.
1990년대 초반 새로운 전환점이 찾아왔다. 연구자 젤리넥이 음성인식에 도입한 통계적 방법 덕분이었다. 대량의 텍스트 데이터를 분석해 단어와 문장의 출현 빈도를 계산하는 방식으로 언어의 패턴을 파악하기 시작했다. 이는 마치 외국어를 배우는 아이가 주변 사람들의 대화를 듣고 자연스럽게 언어를 습득하는 과정과 비슷하다.
2000년대 이후, 현재 우리는 ‘신경망(Neural Network)’ 기반의 언어 모델 시대를 살고 있다. 이 모델들은 어떻게 학습할까? 간단히 설명하면, 문장의 빈칸 채우기를 반복하는 데서 출발한다. “나는 학교에 ___”이라는 문장이 주어졌을 때 ‘간다’ ‘다녔다’ ’도착했다’ 등 다양한 가능성 중 가장 적절한 단어를 선택하는 훈련을 수없이 되풀이한다. 이 과정에서 모델은 언어의 문맥과 의미를 이해하게 된다. 또 적절한 다음 단어를 반복적으로 택함으로써 문장을 생성(generation)할 수 있는 능력이 생긴다. 신경망 기반의 언어 모델이 생성형 인공지능(Generative AI)의 대표 선수로 간주되는 이유가 바로 여기에 있다.
매개변수 1.75조 개의 거대 모델
신경망 모델의 크기는 매개변수(parameter)의 개수다. 이해를 돕기 위한 극단적인 예시로, 모델이 “y=ax+b”라는 형태라고 가정해보자. 매개변수가 a와 b, 단 두 개인 아주 단순한 모델이다. 여기에서 x는 입력, y는 출력이다. “나는 학교에”를 입력했을 때, 문장의 빈칸 채우기(출력)를 잘하도록 적절한 매개변수를 찾는 과정이 신경망 기반 언어 모델의 학습이다.
생성형 인공지능은 놀라운 능력을 보여준다. 이러한 혁명적 변화의 중심에는 GPT(Generative Pre-trained Transformer) 시리즈로 대표되는 거대언어모델(LLM: Large-scale Language Model)이 있다. 오픈AI는 2018년 GPT1(매개변수 1.17억 개), 2019년 GPT2(15억 개), 2020년 GPT3(1.75조 개)를 잇달아 공개했다.
GPT1에서 GPT2로 가면서 자연어(텍스트) 이해뿐 아니라 생성에서도 쓸 만하다는 평가가 나왔다. 질의응답, 번역 등 다양한 언어 처리 과제를 하려면 해당 과제에 맞게 추가 학습을 해야 했던 이전과 달리, GPT3는 예제 몇 개만 있으면 추가 학습 없이도 과제를 일정 정도 수행할 수 있어 많은 이들에게 놀라움을 안겼다.
2022년 등장한 챗GPT(모델 크기 미공개)는 인공지능 언어 처리 기술 발전을 대중에게 각인시킨 결정적인 계기였다. GPT3는 예제를 잘 골라 섬세하게 입력해야 겨우 원하는 답변을 얻는 반면 챗GPT는 어떤 질문에도 자연스럽게 대답했다. 영어뿐 아니라 한국어, 일본어 등 다국어 답변이 가능하다는 점도 많은 이들을 열광시켰다.
오픈AI 외에도 구글(Gemini), 앤스로픽(Claude) 등 다양한 기업들이 생성형 인공지능 모델을 선보이며 시장은 더욱 뜨거워졌다. 이들이 출시하는 모델은 텍스트를 넘어 음성·이미지 영역으로까지 그 능력을 확장하고 있다. 〈그림〉에서 알 수 있듯 시간이 흐를수록 최고 기록이 신되는 주기가 점차 짧아지고 있다.
개인적으로는 2000년대 인터넷 혁명, 2010년대 모바일 혁명에 이어 앞으로는 AI가 세상을 뒤바꾸는 패러다임의 변화가 일어날 것이라고 전망한다. 하지만 지나친 낙관론과 비관론은 경계할 필요가 있다. AI가 당장 인간의 일자리를 대체할 것이라는 염려는 시기상조다. 현재의 AI는 여전히 많은 한계점을 갖고 있으며 그 학습과 운용에는 막대한 비용이 소요된다. 반면 이 기술의 잠재력을 간과하는 것 역시 위험하다. 과거 인터넷과 모바일 혁명 시대에 구글, 메타(페이스북) 등 기회를 포착한 기업들이 큰 성공을 거둔 것처럼 AI 시대에도 새로운 기회가 열릴 것이다.
앞으로 이어질 ‘AI 오디세이’ 연재에서는 GPT를 비롯한 거대언어모델의 구조와 특성, 활용 방법 등을 상세히 살펴볼 예정이다. 또한 텍스트를 넘어 음성과 이미지 영역에서 보이는 기술 발전도 함께 다룰 계획이다. 필자의 의견은 가급적 배제하고 기술 그 자체를 최대한 쉽게 풀어쓰는 것이 목표다. 이를 통해 독자 여러분이 다가올 AI 시대를 더 잘 이해하고 준비할 수 있기를 희망한다. 자, 이제 장대한 여정을 떠나보자. ‘오디세이’의 시작이다.
개발자 M (필명·AI 개발자) editor@sisain.co.kr
▶좋은 뉴스는 독자가 만듭니다 [시사IN 후원]
©시사IN, 무단전재 및 재배포 금지
Copyright © 시사IN. 무단전재 및 재배포 금지.