[프리미엄 리포트] 현존 최고의 자연어처리 인공지능 선발대회

이병철 기자 2021. 1. 9. 12:00
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

 

지난해 7월 인터넷에서 사람과 인공지능(AI)의 논쟁이 벌어졌다. 주인공은 데이빗 샬머스 미국 뉴욕대 철학과 교수와 여러 언론에서 ‘현존 최고의 자연어처리 AI’라고 평가받고 있는 GPT-3였다. 샬머스 교수는 ‘GPT-3는 의식이 있을 것’이라고 의혹을 제기했지만, GPT-3가 ‘나는 의식도 없고 즐거움과 고통도 못느낀다’고 반박하면서 논쟁은 마무리됐다. 이 논쟁을 통해 인간과 가장 비슷한 언어를 구사할 수 있는 AI인 GPT-3의 진면목이 드러났다는 평이 나왔다. 하지만 GPT-3가 엄밀한 의미에서 가장 뛰어난 자연어처리 AI는 아니다. GPT-3 외에도 뛰어난 성능을 보이는 AI가 여럿 나와 최고의 자연어처리 AI 왕좌를 놓고 경쟁 중이다.

미국 비영리연구소 오픈AI에서 개발한 GPT-3는 ‘자연어처리 인공지능(AI)’이다. 자연어는 한국어, 영어처럼 사람들이 사용하는 언어다. 자연어처리 AI는 자연어를 이용해 사람과 대화를 하거나, 소설이나 신문기사 등의 문장을 만들어내는 AI를 뜻한다. 

자율주행부터 의료, 보안 등 실생활의 다양한 분야에서 자연어처리 AI의 역할이 점점 커지고 있다. 궁극적으로 AI가 우리 실생활에 더 가까이 다가오기 위해서는 사람과의 의사소통이 가능해야 한다.

AI를 개발하는 전문가들은 C, 자바(JAVA), 파이썬(Python) 같은 컴퓨터 언어를 사용한다. 하지만 모든 사람이 AI와 의사소통을 하기 위해 컴퓨터 언어를 공부할 수 없는 노릇이다. 이 때문에 자연어처리 AI가 등장했다. 

원래 AI는 사람 수준으로 자연어를 이해하고 구사하기는 어렵다. 자연어와 컴퓨터 언어에는 큰 차이가 있기 때문이다. 가장 큰 차이는 ‘문맥’의 이해 여부다. 문맥은 단어 또는 문장의 앞뒤 상황에 따라 나타나는 언어적인 맥락이다. 같은 단어나 문장이라도 문맥에 따라 그 의미가 다르게 사용될 수 있는 요소를 말한다. 예를 들어 ‘잘했네, 잘했어’라는 문장을 보자. 어떤 행동을 정말 잘했다는 의미일 수도 있지만, 만약 앞서 잘못을 지적하거나 누군가 실수한 상황이라면 반대로 질책하는 의미가 될 수도 있다. 이 때문에 자연어는 문맥에 따라 의미가 바뀔 수 있는 ‘문맥 의존 언어’로 분류된다.

반면 컴퓨터 언어는 앞뒤 문맥과 관련 없는 명확한 표현만이 가능하다. 이를 ‘문맥 자유 언어’라고 부른다. 바로 이점이 AI가 자연어를 처리하는 데 가장 어려움을 겪는 부분이다. 

물론 문맥에 대한 의존성만이 자연어처리의 장벽은 아니다. 강승식 국민대 소프트웨어융합대 교수는 “언어는 사회문화에 따라 의미가 변형되기도 하고, 새로운 단어가 만들어지거나 기존의 단어가 사라지기도 한다”며 “이 때문에 자연어처리 AI를 학습시키기 위해서는 수많은 데이터가 필요하다”라고 말했다. 만약 이런 데이터를 확보하지 못하거나 완벽히 학습시키지 못한다면 자연어처리 AI의 성능을 향상시키기 어렵다.

자연어처리 AI 3파전

 

현재 가장 뛰어난 성능을 가진 자연어처리 AI 모델로는 미국 정보통신(IT) 기업 구글에서 개발한 트랜스포머(Transformer)와 버트(BERT), 그리고 GPT-3가 꼽힌다.

세 종류의 AI 중 가장 먼저 개발된 모델인 트랜스포머는 2017년 공개됐다. 트랜스포머 모델이 발표되기 이전에는 자연어처리 AI 대부분이 전통적인 방식의 딥러닝 알고리즘인 순환신경망(RNN)과 합성곱신경망(CNN) 방식을 사용했다. RNN은 자연어처리 연구 초기부터 사용됐던 방식으로 데이터를 순차적으로 처리하며 분석한다. 단어의 의미를 분석할 때 앞서 나온 단어를 바탕으로 이해하는 방식이다. CNN은 이미지 분석에 주로 활용되던 방식으로, 문장 내에서 단어의 순서를 보존해 각 위치에서 독립적으로 단어의 의미와 표현 방법을 분석한다. 

하지만 이런 방식은 문장의 길이가 길어지면 성능이 떨어진다는 한계가 있었다. 이 때문에 트랜스포머는 어텐션 매커니즘(attention mechanism)만을 활용해 자연어를 처리하는 방식인 ‘셀프 어텐션(self-attention)’ 방식을 채택했다.

어텐션 매커니즘은 문장 전체의 중요성을 모두 분석하는 대신 중요한 부분만을 집중(attention)해 문장을 분석하는 방식이다. 더 적은 연산으로도 효율적으로 문장을 이해할 수 있다는 장점이 있다. 트랜스포머가 셀프 어텐션을 채택해 기존 방식보다 우월한 성능을 보인 이후에는 대부분 자연어처리 AI 모델에는 이 방식이 활용된다.

버트와 GPT-3는 트랜스포머에서 파생돼 만들어졌다. 이중 2018년 개발된 버트는 셀프 어텐션을 기반으로 문장을 분석하거나 생성할 때 ‘앞에서 뒤’ ‘뒤에서 앞’ 양방향으로 분석한다는 특징이 있다. 문맥을 이해하고 문장의 의미를 파악하는 데 유리하다.

GPT-3는 가장 최근인 2020년 발표됐다. GPT-3는 양방향으로 자연어를 분석하는 버트와 달리 한 방향으로 분석하는 단방향 모델이다. 상대적으로 자연어를 이해하는 성능은 부족하지만 차례로 문장을 만들어나갈 수 있어 자연어 생성에 적합하다.

이들은 방식의 차이 만큼이나 성능도 조금씩 다르다. 주재걸 KAIST AI대학원 교수는 “자연어처리 AI의 성능을 비교하기 위한 시험은 평가 방법과 조건에 따라 다양한 방식이 있다”며 “이중 대표적으로 글루 벤치마크(glue benchmark)가 있다”고 설명했다.

글루 벤치마크는 자연어처리 AI 모델을 훈련하고 성능을 평가, 비교하기 위한 9개의 데이터세트로 구성된 시험이다. 쉽게 말해 일종의 문제은행 방식인데 문법의 정확도, 두 문장의 유사도, 문장의 의미 등을 묻는 문제를 내고 AI가 이를 풀도록 한다. 대부분의 AI 모델을 평가할 수 있고 평가 결과를 시각적으로 확인할 수 있어 활용되고 있다. 

글루 벤치마크를 기준으로 세 모델을 각각 평가하면 버트의 성능이 압도적으로 나온다. 실제로 글루 벤치마크 상위 10개 모델 중 4개는 버트를 기반으로 하고 있다. 트랜스포머 기반 모델도 1개가 포함됐다. 반면 대중적 유명세를 타고 있는 GPT-3는 상위 10위 안에 이름을 올리지 못했다. 글루뿐만 아니라 평가의 난이도를 보다 높인 슈퍼글루(SuperGLUE), 스쿼드(SQuAD) 등 다양한 벤치마크에서 상위권 대부분은 버트를 기반으로 하는 모델이 자리를 잡고 있다.

인간과 인공지능을 잇는 자연어처리 AI

 

하지만 글루 벤치마크 결과만으로 다른 AI가 열세라고 평가하긴 이르다. 모델마다 각각의 강점이 있기 때문이다. 트랜스포머의 경우 특정 언어를 다른 언어로 번역하는 ‘기계 번역’에 특화돼 있다. 버트는 자연어를 이해하는 데 특히 뛰어난 성능을 보인다. GPT-3는 자연어 생성을 목적으로 개발돼 언어 구사 능력에 뛰어나다. 사실 버트가 각종 벤치마크에서 상위권을 차지하고 GPT-3의 점수가 낮은 것도 대부분의 벤치마크가 자연어 이해 능력을 중점적으로 평가하기 때문이라는 게 전문가들의 해석이다.

주 교수는 “자연어 생성은 자연어 이해와 연관되면서도 보다 구현하기 어려운 상위 기술”이라며 “단지 벤치마크 점수를 기준으로 자연어 생성에서 뛰어난 성능을 보이는 GPT-3가 버트보다 성능이 떨어진다고 이야기하기는 어렵다”고 평가했다.

실제로 GPT-3는 벤치마크 성능과 무관하게 다양한 방면에서 활용되고 있다. 미국 채프먼대 학생은 GPT-3가 작성한 시나리오를 바탕으로 단편 영화를 제작하기도 했고, GPT-3가 직접 쓴 글이 신문기사나 칼럼으로 게재되기도 했다.

벤치마크 점수를 기준으로는 버트가 우세하지만, 자연어처리 인공지능의 연구 목적을 생각한다면 트랜스포머와 GPT-3도 각자의 강점을 갖는 셈이다.

현재 연구자들은 현존 자연어처리 AI를 뛰어넘는 보다 고성능의 모델을 개발하고 있다. 트랜스포머를 기반으로 버트와 GPT-3가 탄생했듯이, 이들을 기반으로 개발된 다양한 모델이 벤치마크에서 사람보다 뛰어나거나 근접한 점수를 받고 있다. 이미 글루 벤치마크에서는 13개의 모델이 사람보다 높은 점수를 받았고, 슈퍼글루 벤치마크에서도 사람에 근접하는 수준의 점수를 받는 모델이 꾸준히 등장하고 있다. 주 교수는 “앞으로 자연어처리 AI의 역할이 더욱 강조될 것”이라며 “궁극적으로는 모델의 강점을 모두 결합한 최적의 모델이 개발돼야 할 것”이라고 말했다. 

※관련기사. 과학동아 2021년 1월,  현존 최고의 자연어처리 인공지능 선발대회

[이병철 기자 alwaysame@donga.com]

Copyright © 동아사이언스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?