갑자기 능력이 튀어나왔다, 크게 했을 뿐인데 [인공지능 오디세이]
위대한 연구 성과는 무수한 실험과 반복적인 실패를 통해 탄생한다. 수많은 시도와 그에 따른 천문학적인 비용에도 불구하고, 실패를 용인하고 도전을 장려하는 기업 문화가 중요한 이유다. 구글과 오픈AI 같은 기업들이 거대언어모델(LLM)의 기반 기술을 가장 먼저 개발한 것도 이런 배경에서 비롯되었다.
가장 먼저 시작한 곳은 바로 구글이다. 2017년 ‘트랜스포머’를 발표한 이후 구글은 이를 활용해 다양한 시도를 이어갔다. 그중 하나가 2018년 공개된 BERT(Bidirectional Encoder Representations from Transformers)다. BERT는 감성을 분석하는 등 기존 자연어 처리 태스크에서 탁월한 성능을 보여 크게 주목받았다.
BERT는 문장에서 일부 단어를 지우고 나서, 그 자리에 어떤 단어가 적합한지 예측하는 방식으로 학습한다. 예컨대 “나는 ____를 좋아한다”라는 문장이 주어졌을 때, 빈칸에 들어갈 단어로는 ‘사과’ ‘축구’ 등 여러 가지가 가능하다. BERT는 빈칸을 채우기 위해 단어의 위치와 주변 단어, 전체 문맥을 고려해야 한다. 이처럼 BERT는 “오래 학습하면 학습할수록” 문장 구조와 의미에 대한 깊은 이해(understanding)를 얻게 된다.
BERT는 구글에서 자체 개발한 AI 학습용 반도체인 TPU 64장을 활용해 4일 동안 학습되었다. 당시 대부분의 모델이 기껏해야 1~2장의 GPU에서 몇 시간 정도 학습된 것과 비교하면 100배 이상의 엄청난 자원이 투입된 셈이다. 더구나 최종 모델을 만들어내기까지 많은 시행착오가 있었을 것이다. 성공을 보장할 수 없는 상태에서 이만한 도전을 하겠다고 하는 연구자들을 믿고 지지해준 구글 경영진이 새삼 인상적이다.
비슷한 시기에 오픈AI는 트랜스포머 구조를 기반으로 한 GPT(Generative Pretrained Transformer) 시리즈를 차례로 발표했다. 2018년 GPT1(매개변수 1.17억 개), 2019년 GPT2(15억 개), 2020년 GPT3(1.75조 개)로 이어지며, 시도할 때마다 모델 크기를 10배 이상 확대했다(〈그림 1〉 참조). GPT 시리즈 역시 논문에는 적히지 않은 시행착오와 그 비용까지 감안하면 천문학적 투자가 이뤄졌을 것임을 상상해볼 수 있다.
회의론 물리친 ‘스케일링의 법칙’
GPT는 다음 단어 맞추기를 반복한다. “나는 학교에 ___”라는 문장이 주어졌을 때, ‘간다‘ ‘다녔다’ ’도착했다’ 등 다양한 가능성 중 가장 적절한 단어를 선택하는 훈련을 수없이 되풀이한다. 이 과정에서 다음 단어를 예측하는 능력을 키워 문장을 생성(generation)할 수 있게 된다. 아울러 “모델 크기가 커질수록” 문장 생성 품질이나 과제 수행 능력이 눈에 띄게 향상되었다.
구글의 BERT와 오픈AI의 GPT 시리즈가 성공할 수 있었던 것은 트랜스포머 구조 덕분이다. 모델 크기를 쉽게 확장할 수 있고, 다수의 GPU로 대규모 데이터를 효율적으로 학습할 수 있는 구조적 특성에 기인한다(〈시사IN〉 제890호 ‘갑자기 유능해진 AI, 그 뒤에 이것 있었다’ 기사 참조). 그러나 BERT와 GPT 시리즈가 나왔을 때 자연어 처리 연구자 사이에선 비판적 목소리도 많았다. 오래 학습하고 모델 크기를 키웠을 뿐 새로움이 없다는 지적이었다. 실제로 구글, 오픈AI 내부에서도 이런 비판의 목소리가 상당했다는 후문이다.
시간이 지나면서 이러한 회의론은 점차 사라졌다. 모델 학습에 투입되는 전체 비용은 학습 시간이 길고 모델이 클수록 커지지만 그만큼 모델 성능이 개선된다는 사실이 밝혀졌다. 구글 연구팀이 2022년 발표한 연구에 따르면 특정 비용 이하에서는 그 능력이 전혀 나타나지 않다가, 어떤 임계점을 넘어서면 새로운 능력이 ‘창발(emergence)’된다. 예를 들어 단순한 계산이나 단어 조합 등의 능력이 갑자기 나타나기 시작하는 것이다(〈그림 2〉 참조).
거대언어모델 시대로 접어들면서 학습 비용, 모델 크기, 성능 사이의 관계에 대한 이해도가 상당히 높아졌다. 이를 설명하는 대표적인 개념이 바로 ‘스케일링의 법칙(Scaling Law)’이다. 오픈AI와 구글, 딥마인드 같은 빅테크 기업들이 LLM을 개발하면서 발견한 이 법칙에 따르면 모델 크기와 데이터 양, 학습 비용(계산량)이 각각 적절히 증가하면 모델 성능도 비례해 개선된다.
〈그림 3〉은 스케일링의 법칙 개념을 처음 제시한 오픈AI의 2020년 연구에서 따온 것이다. 세로축(테스트 로스)은 성능을 의미하는 지표인데 낮을수록 좋다는 의미다. x축과 y축이 지수 스케일일 때 ‘학습 비용’을 늘릴수록(왼쪽 표), ‘데이터 양’이 많을수록(가운데), ‘모델 크기’가 클수록(오른쪽) 모델 성능이 선형적으로 증가한다. 오픈AI의 이 같은 연구 결과를 한마디로 요약하면 “크면 클수록 좋다”는 것이어서 거대언어모델 시대의 신호탄이 되었다.
하지만 현실적으로는 학습에 사용할 수 있는 자원, 특히 계산 자원에 한계가 있다. 예컨대 누군가가 GPU 1000장을 두 달 동안 빌려준다고 가정해보자. 더 많은 GPU를 사용할 수 있으면 좋겠지만, 주어진 자원 안에서 가장 성능 좋은 LLM을 만들려면 어떻게 해야 할까. 딥마인드의 2022년 연구는 이에 대한 답을 제시한다.
GPU 1000장을 빌려준다면?
옵션은 여러 가지가 있을 수 있지만, 본질적으로 두 가지 선택이 있다. 첫째 모델 크기를 키우는 방법이고, 둘째 더 오랫동안 학습시키는 방법이다. 다시 말해 ‘큰 모델에 적은 데이터를 학습시킬 것인가?’ 아니면 ‘작은 모델에 많은 데이터를 학습시킬 것인가?’라는 질문이다. 모델이 크면 더 좋은 성능을 기대할 수 있지만 같은 데이터를 학습하는 데 더 많은 비용이 든다. 반면 작은 모델은 상대적으로 성능이 떨어지지만 동일한 자원으로 더 많은 데이터를 학습시킬 수 있다. 결국 자원이 제한된 상황에서는 모델 크기와 학습 데이터 양 사이에 ‘트레이드 오프(trade-off)’ 관계가 발생하는 것이다.
딥마인드 연구팀은 다양한 모델 크기와 학습 데이터 양의 조합을 실험하여 동일한 학습 비용 내에서 가장 효율적인 조합이 있다는 것을 밝혀냈다. 즉 특정한 자원 조건에서는 가장 적합한 모델 크기와 학습량이 존재한다는 것이다. 이 연구는 모델 구조가 트랜스포머이고, 학습 방식이 ‘다음 단어 예측’으로 고정되어 있기 때문에 가능했던 결론이다.
딥마인드의 연구는 여전히 유효하지만 최적의 조합은 고정된 것이 아니라 여러 요인에 따라 달라질 수 있다. 예를 들어 모델 구조나 GPU 같은 하드웨어가 개선되면 같은 자원으로 더 큰 모델을 만들거나 더 오래 학습할 수 있다. 또한 데이터 양이 늘어나거나 데이터 품질이 좋아지면 더 높은 성능을 기대할 수 있다. 딥마인드 연구의 가정 자체를 극복하는 방법도 있다. 즉 GPU를 늘려서 성능을 끌어올리는 것이다. 실제로 메타는 라마3 같은 모델을 학습할 때 딥마인드가 제시한 최적 학습량보다 훨씬 오래 학습해 성능을 극대화했다.
정리하자면, LLM의 성능을 높이기 위해서는 모델을 크게 만들고, 오래 학습시키는 것이 기본이다. 만약 자원이 제한된다면 모델 크기와 학습량 사이에서 최적의 균형을 찾아야 하지만, 충분한 GPU 자원이 있다면 두 가지 모두 크게 늘리는 것이 유리하다. 아울러 인터넷에 있는 모든 데이터를 최대한 수집해 양을 확보하고, 그 데이터를 잘 정제하는 것(질)도 매우 중요하다. 모델 구조나 하드웨어를 개선하는 것도 성능 향상의 한 방법이다. 이를 위해서는 인력, 데이터, GPU 등을 확보할 수 있는 대규모 자본이 필수적이다. 이것이 LLM 경쟁이 소수의 빅테크 기업 위주로 재편되는 이유이기도 하다.
※ 참고 문헌
〈Emergent Abilities of Large Language Models〉, 2022, 구글
〈Scaling Laws for Neural Language Models〉, 2020, 오픈AI
〈Training Compute-Optimal Large Language Models〉, 2022, 딥마인드
개발자 M (필명·AI 개발자) editor@sisain.co.kr
▶좋은 뉴스는 독자가 만듭니다 [시사IN 후원]
©시사IN, 무단전재 및 재배포 금지
Copyright © 시사IN. 무단전재 및 재배포 금지.