LLM을 똑똑하게 만드는 3단계 학습법 [인공지능 오디세이]

거대언어모델(LLM)은 어떤 과정을 거쳐 만들어질까. 크게 ‘사전 학습’ ‘감독 학습’ ‘강화 학습’ 세 단계로 나눌 수 있다. LLM의 품질은 각 단계를 거치며 점진적으로 개선된다.

강화 학습은 인공지능이 적절한 답을 할 때 높은 점수를 부여하는 보상 모델을 이용한다. ⓒ심규태

우리는 지금 거대언어모델(Large-scale Language Model·LLM) 시대를 살고 있다. 이 모델들은 과연 어떤 과정을 거쳐 만들어지는 걸까. 오픈AI나 앤스로픽 같은 회사들은 최신 모델의 개발 과정을 거의 공개하지 않기 때문에 그 구체적인 세부 사항을 알기 어렵다. 하지만 오픈AI나 앤스로픽이 발표한 논문들을 통해 일부 내용을 짐작할 수 있고, 메타나 알리바바 같은 회사들은 그 제작 공정을 비교적 자세히 공개한다. 이번 글에서는 이러한 파편화된 정보를 모아, 현재 업계에서 통용되는 LLM의 제작 공정과 이 과정에서 발현되는 핵심 능력들을 살펴보려고 한다.

이전 편(〈시사IN〉 제898호 ‘토큰으로 썰어준다 LLM의 공부 비법’ 기사 참조)에서 다루었듯이 LLM 학습의 핵심은 ‘다음 토큰 예측’이다. 토큰은 LLM이 글을 이해하고 생성하는 최소 단위다. “어제 학교에 ___”라는 문장이 주어졌을 때, ‘갔다’ ‘다녀왔다’ ‘도착했다’ 같은 적절한 다음 토큰을 맞추는 연습을 반복하며 글을 이해하고 생성하는 능력을 기른다. 모델 크기를 키우고 오래 학습하면 어떤 임계점을 넘어서는 경우 이전에 보이지 않았던 새로운 능력이 ‘창발’된다.

그렇다면 요즘 LLM은 어느 정도 규모로 ‘사전 학습(pretraining)’을 하는 것일까? 모델 크기와 회사마다 차이가 있지만, 2024년 기준으로 10조 개 이상의 토큰(약 20억 건 이상의 문서)을 학습하는 것이 일반적이다. 학습 데이터는 웹 문서, 뉴스 기사, 백과사전, 커뮤니티 글 등 우리가 인터넷에서 접할 수 있는 거의 모든 텍스트를 포함한다.

LLM의 동작 원리는 아직 정확히 밝혀지지 않았지만, 사전 학습을 통해 LLM은 언어의 구조와 문맥을 이해하는 능력을 얻는다. 이 과정에서 발현되는 가장 중요한 능력 중 하나가 바로 ‘인컨텍스트 러닝(In-Context Learning·ICL)’이다. ICL이란 모델이 “추가적인 학습(매개변수 업데이트) 없이” 프롬프트라고 하는 입력 텍스트의 문맥(context)을 기반으로 과제를 수행하는 과정 혹은 능력이다. 예컨대 영한 번역 과제를 수행한다고 치자. 그러면 〈그림 1〉과 같은 프롬프트를 LLM에 넣으면 된다.

<그림 1> 영한 번역을 수행하기 위해 LLM에 입력한 프롬프트 예시. 사전 학습이 충분히 잘 되어 있는 LLM이라면 문맥으로부터 영한 번역 상황임을 이해하고 “What is your name?”에 대한 한국어 번역문 ‘네 이름이 뭐야?’를 생성한다. 이같이 프롬프트의 문맥을 기반으로 과제를 수행하는 과정 혹은 능력을 ‘인컨텍스트 러닝(In-Context Learning)’이라고 한다. ⓒ개발자M 제공

사전 학습이 충분히 잘 되어 있는 LLM이라면 〈그림 1〉과 같은 프롬프트가 입력되었을 때 “네 이름이 뭐야?”라는 적절한 출력 문장을 생성해낼 수 있다. 이는 LLM이 프롬프트에 포함된 ‘영어→한국어 번역’의 두 가지 예시(①Hello ~ 지내? ②How’s ~ 어때요?)를 이해하고, 문맥에서 “What is your name?”을 한국어로 번역해야 하는 상황임을 깨달은 덕분이다. ICL은 2020년 GPT3 모델을 통해 처음 주목받았는데, 당시 자연어 처리 연구자들 사이에서는 ‘경이롭다’라는 반응이 나왔다. 그 이전에는 번역과 같은 과제를 수행하려면 영한 번역이 쌍을 이루는 병렬 말뭉치를 ‘별도로’ 학습한 전용 모델이 필요했기 때문이다. 그러나 GPT3는 추가 학습 없이 프롬프트만으로 과제를 해결하는 놀라운 성능을 보여주었다.

■ 감독 학습: 새로운 유형도 잘해요

하지만 ‘사전 학습’만으로는 한계가 있다는 점이 금방 드러났다. ICL은 주어진 프롬프트 내에서 적절한 패턴을 읽어낼 수 있도록 모델에 유도하는 방식이기 때문에 과제 수행 능력이 프롬프트 설계와 예제 선택에 크게 의존한다. 예제 갯수가 부족하거나 구체적이지 않은 경우, 예제의 순서만 바뀌어도 성능이 상당히 떨어진다.

이런 단점을 보완하기 위해 제안된 과정이 바로 ‘감독 학습(Supervised Fine-Tuning·SFT)’이다. 감독 학습은 모델이 지시(입력)와 정답(출력)을 학습하도록 하여, 프롬프트 예제 없이도 사용자의 지시를 더 잘 이행하도록 만드는 방법이다. 예컨대 감독 학습 과정에서는 ‘이 영화 정말 재미있네요’라는 문장이 입력으로 주어졌을 때 ‘긍정’ 혹은 ‘이 리뷰는 긍정입니다’가 곧바로 출력되도록 모델을 학습시킨다. 이 과정의 핵심은 사전 학습과 마찬가지로 다음 토큰을 예측하는 것에 있다. 사전 학습에서는 인터넷에 존재하는 방대한 일반 문서를 학습하는 반면, 감독 학습에서는 감성 분석, 번역과 같은 특정 과제의 지시문-정답 쌍을 학습한다는 점에서 차이가 있다.

사실 감독 학습은 자연어 처리 분야에서 이미 널리 활용되던 기법이지만, 사전 학습을 마친 LLM에 감독 학습을 적용하면 모델의 과제 수행 능력이 획기적으로 향상된다는 사실이 밝혀졌다. 더 주목할 만한 점은 감독 학습을 통해 모델이 단일 과제만 잘 수행하는 데 그치지 않고, 수십에서 수백 개의 다양한 과제를 동시에 높은 수준으로 처리할 수 있게 된다는 사실이다. 이뿐 아니라 〈그림 2〉에서처럼 학습 중에 본 적 없는 새로운 유형의 과제에 대해서도 모델이 답변을 생성할 수 있다는 사실이 발견됐다. 예를 들어 모델이 영한 번역과 감성 분석 등만 학습했더라도, “다음 문장을 요약하라” 같은 새로운 지시문에 대해서도 적절한 답변을 생성할 수 있다는 것이다.

<그림 2> 사전 학습을 마친 LLM에 감독 학습(SFT)을 수행하면 학습 때 본 적 없는 새로운 유형의 과제(검증용 과제)에 대한 일반화 성능이 개선된다. 모델 크기가 클수록 그 개선 폭은 크다. 자료:구글 연구팀 ‘FINETUNED LANGUAGE MODELS ARE ZERO-SHOT LEARNERS‘

여기에서 한발 더 나아가 영어 지시문과 영어 정답 쌍만으로 학습된 LLM이 한국어 지시문을 이해하고 한국어로 정답을 생성할 수 있다는 점이 확인되면서 새로운 가능성이 열렸다. 이는 LLM이 감독 학습 과정에서 여러 유형의 지시문 의도와 구조를 언어에 관계없이 일반화할 수 있는 능력을 갖추기 때문으로 추측된다. 예컨대 모델은 영어 지시문에서 학습한 “Translate this text to Korean”이라는 요청의 본질을 이해하고, 동일한 요청이 한국어로 주어졌을 때도 적절하게 대응할 수 있다. 이는 LLM이 단순히 기계적으로 언어를 처리하는 것이 아니라, 의미적 연관성과 맥락을 추론하는 높은 수준의 인지적 유연성을 보유하고 있음을 시사한다. 오픈AI나 앤스로픽의 모델들이 영어 중심으로 학습되었는데도 상당한 수준의 한국어 지시 이행 능력을 보유한 것도 같은 이유로 풀이된다.

■ 강화 학습: 인간이 한 땀 한 땀

최근의 모델들은 사전 학습과 감독 학습을 거친 후 ‘강화 학습(Reinforcement Learning)’ 단계를 통해 성능을 한층 더 끌어올린다. 여기서 강화 학습이란 에이전트(여기서는 LLM)가 환경과 상호작용하면서 보상을 최대화하도록 학습하는 기법이다. 구체적으로 살펴보면, 강화 학습 과정에서 LLM의 응답이 정확하고 유용하며 맥락에 적절하면 높은 보상을 주고, 그 반대 경우라면 낮은 보상을 부여한다. 예컨대 〈그림 3〉에서처럼 ‘한글이 언제 만들어졌어?’라는 질문에 대한 답변으로 ‘세종대왕이 만들었습니다’는 적절하지 않다. 이 경우 LLM 응답이 얼마나 적절한지 채점하는 역할을 하는 보상 모델이 낮은 점수를 부여하게 된다. 반대로 ‘1443년 겨울입니다’라는 응답에는 높은 점수를 매긴다. 결과적으로 LLM은 보상 모델의 피드백을 바탕으로 더 나은 답변을 생성하도록 자신의 정책을 조정하게 된다.

<그림 3> LLM 강화 학습 개념도. 보상 모델은 LLM 응답이 정확하고 유용하면 높은 보상을, 그 반대 경우라면 낮은 보상을 부여한다. LLM은 이러한 피드백을 바탕으로 더 나은 답변을 생성하도록 자신의 정책을 조정한다. ⓒ개발자M 제공

강화 학습에서 핵심은 보상 모델의 품질이다. 보상 모델이 적절하게 작동해야만 언어 모델이 사용자 지시를 충실히 따르고, 유용하며 안전한 응답을 생성하도록 유도할 수 있다. 보상 모델의 학습 데이터는 LLM이 생성한 다양한 응답을 두고 사람이 직접 평가(human feedback)하는 과정을 거쳐 제작된다. 예컨대 “기후변화가 왜 중요한가요?”라는 질문에 대해 모델이 생성한 여러 답변을 사람 평가자가 순위를 매긴다. “기후변화는 지구온난화와 생태계 파괴를 초래하며, 이는 인류에게 심각한 영향을 미칩니다” 같은 구체적이고 명확한 답변이 가장 높은 순위를 받고, “기후변화는 중요합니다” 같은 모호한 답변은 낮은 순위를 받는 식이다. 이렇게 수집된 데이터는 보상 모델이 응답의 질을 평가하는 기준을 학습하는 데 사용된다. 이 학습 과정을 통해 보상 모델은 어떤 응답이 높은 품질인지 구별할 수 있는 능력을 갖추게 되며, 강화 학습 과정에서 LLM에 효과적인 피드백을 제공하는 역할을 수행한다.

요컨대 LLM의 품질은 각 학습 단계를 거치며 점진적으로 개선된다. ‘사전 학습’에서는 방대한 텍스트 데이터를 통해 언어의 구조와 문맥을 이해하는 기본 능력을 갖추고, ‘감독 학습’에서는 특정 과제에 대한 정답을 학습하여 응답의 정확성과 유용성을 높인다. 이후 ‘강화 학습’은 인간 피드백을 기반으로 모델이 더 자연스럽고 맥락에 맞는 응답을 생성하도록 정제한다. 이러한 과정을 통해 공정 초기에는 단순히 텍스트를 생성하던 모델이, 사용자 지시에 따라 번역, 요약, 분석, 창작 등 다양한 과제를 적절하게 수행할 수 있는 다재다능한 도구로 거듭나게 된다.

개발자 M (필명·AI 개발자) editor@sisain.co.kr

경제