[필동정담] 인공지능의 학습법

GPT-4와 같은 인공지능(AI) 언어 모델은 막대한 양의 데이터를 학습했기 때문에 탁월한 솜씨를 발휘하는 것이다. GPT-4는 약 200만권의 책에 해당하는 정보를 배운 것으로 알려진다. 데이터 크기로는 약 1TB에 달한다.

하지만 학습 과정은 인간과 다소 다르다. 언어 모델에는 정보를 처리하는 여러 단계가 있는데, 이 단계들을 '레이어(layer)'라고 부른다. GPT-4는 약 300개 레이어로 구성된 것으로 알려졌다.

인공지능 모델이 1TB의 지식을 쌓기 위해서는, 약 140GB의 입력 데이터가 필요하다. 입력된 데이터는 첫 번째 레이어에 들어온 뒤, 레이어마다 계산을 통해 처리된 후, 다음 레이어로 전달되는 과정을 반복한다. 최종적으로 300개의 레이어를 거친다. 쉽게 말하면 거대한 도서관에서 사람들이 책을 한 권씩 읽고 그 내용을 다음 사람에게 전달하는 과정을 300번 반복하는 것과 유사하다.

이러한 학습을 잘하려면 계산력과 기억력이 모두 좋아야 한다. 컴퓨팅 파워가 중요한 이유다. 학습에 필요한 메모리 칩 용량은 실제 데이터 용량의 20배에 달한다.

또 학습 중 계산량이 엄청나게 증가하기 때문에 여러 작업을 동시에 처리할 수 있는 그래픽처리장치(GPU)가 필요하다. 예를 들어 라마3라는 모델을 학습시키려면 약 1만6000개 GPU가 필요하다. 앞으로 더 큰 모델을 학습시키려면 이보다 10~20배 더 많은 GPU가 필요할 수 있다.

유승주 서울대 컴퓨터공학부 교수는 'SK AI 서밋' 강연에서 "언어 모델이 커지다 보면 3~4년 뒤에는 모델을 만들기 위해 100만개에 달하는 AI 가속기가 필요할지 모른다"며 "가속기가 많아질수록 연결성과 관리 효율성이 떨어질 가능성이 있고, 이 모든 연산 장치가 작동하면서 막대한 에너지를 소비하게 된다"고 설명했다. AI가 발전하려면 반도체 산업이 함께 발전해야 하는 것이다.

[이상덕 기자]

매일경제

경제

[필동정담] 인공지능의 학습법