4천만원짜리 칩셋 1만개 필요한 챗GPT 훈련…“이젠 끝났다”

곽노필 2023. 4. 19. 10:05
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

오픈AI “거대언어모델 시대는 끝났다”
챗지피티 낳은 개발 전략의 역할 다해
매개변수 의존 고비용 구조 한계 봉착
다른 방식의 더 나은 인공지능 나올것
오픈AI의 샘 올트먼 대표는 “챗지피티를 탄생시킨 개발 전략의 역할은 끝났다”고 말했다. 게티이미지뱅크

“거대 모델의 시대는 끝났다.”

챗지피티(ChatGPT) 개발업체인 오픈에이아이(AI)의 샘 올트먼 대표가 “챗지피티를 탄생시킨 개발 전략의 역할은 끝났다”고 말했다. 그는 그러나 챗지피티 이후의 인공지능 모델에 대해선 명확히 언급하지 않았다.

세계적인 인공지능 열풍의 주역인 챗지피티는 ‘거대 언어 모델’(LLM)을 기반으로 한 대화형 인공지능이다. 대규모 데이터를 이용한 사전학습 인공지능인 거대언어모델은 워낙에 많은 데이터로 훈련했기 때문에 자연어 이해, 자동 번역, 내용 요약, 질의-응답 등 다양한 영역에서 뛰어난 자연어 처리 능력을 보여주면서 큰 주목을 받고 있다. 오픈에이아이가 지난해 11월 말 거대언어모델 지피티3.5를 기반으로 내놓은 챗봇 ‘챗지피티’는 그 대표적 사례다.

인간 뇌는 860억개의 뉴런(신경세포)과, 뉴런 사이를 연결하는 100조개의 시냅스로 이뤄져 있다. 인공지능 신경망을 인간 뇌에 비유하자면, 시냅스에 해당하는 것이 바로 매개변수다. 지피티3은 무려 1750억개의 매개변수를 갖고 있다. 인간 뇌에 비하면 규모가 작지만 인공신경망 중에선 최대 규모에 속한다.

오픈에이아이가 최근에 내놓은 지피티4의 매개변수가 몇개인지는 공개되지 않았다. 기술전문매체 <와이어드>는 다만 “수조개의 단어와 수천개의 고성능 칩으로 훈련했을 것”으로 추정했다.

올트먼 대표는 그러나 앞으로의 인공지능 기술 발전이 더 큰 모델에서 나오지는 않을 것으로 예상했다. 그는 지난 13일 매사추세츠공대(MIT)에서 열린 ‘인공지능과 함께하는 비즈니스의 미래’ 행사에서 기조연설을 통해 “지금은 거대모델 시대의 끝에 서 있다고 생각한다”며 “앞으로는 다른 방식으로 더 나은 인공지능을 만들게 될 것”이라고 말했다.

그의 발언은 지난 몇년 간의 거대모델 개발 경쟁 흐름과는 배치된다. 지피티 매개변수의 경우 2019년 발표된 지피티2에선 15억개였던 것이 2022년 나온 지피티3에선 1750억개로 100배 이상 늘어났다.

챗지피티가 출시된 이후 구글은 매개변수가 1370억개인 거대언어모델 람다를 기반으로 한 경쟁 챗봇 바드를 내놓았다. 앤트로픽(Anthropic), 에이아이21(AI21), 코히어(Cohere) 등 신생기업들도 더 큰 알고리즘을 구축하는 데 막대한 자금을 쏟아붓고 있다.

인공지능용으로 개발된 엔비디아의 최신 그래픽칩 ‘H100 NVL GPU’. 엔비디아 제공

“지피티5, 당분간 개발하지 않을 것”

올트먼이 거대언어모델 시대의 종말을 강조하는 이유는 고비용 구조 때문이다. 거대언어모델 개발과 학습, 운용에는 매우 많은 컴퓨팅 자원과 자금이 들어간다. 시장 분석 기관과 분석가들에 따르면 인공지능 훈련에 쓰이는 엔비디아의 최신 그래픽칩(GPU)은 개당 3만달러(약 4천만원)가 넘는다. 또 챗지피티 훈련에는 1만개의 엔비디아 칩이 사용됐다. 올트먼은 3월에 출시한 지피티4 훈련에 1억달러 이상이 들었다고 말했다. 지피티2 훈련에 들어간 비용은 5만달러였다. 고비용 구조는 수익 감소로 이어진다.

실제로 오픈에이아이는 지피티4 개발을 설명한 논문에서, 모델 크기 확장은 수익을 감소시킬 것으로 예상했다. 회사가 구축할 수 있는 데이터 센터 수를 무한정 늘릴 수도 없고, 신속하게 구축할 수도 없는 물리적 한계도 있다.

올트먼은 거대언어모델의 중추 역할을 하는 ‘트랜스포머’의 효율을 높이는 데 반드시 매개변수 확장이 필요한 것은 아니라는 점도 지적했다. 트랜스포머 모델은 문장 속 단어와 같은 순차적인 데이터간의 관계를 추적해 맥락과 의미를 학습하는 머신러닝 시스템이다. 그는 “트랜스포머를 더 좋고 더 유용하게 만드는 방법은 많이 있으며, 그 중 상당수는 모델에 매개변수를 추가할 필요가 없다”고 말했다.

구글 인공지능 개발자 출신으로 거대언어모델 개발업체인 코히어 공동창업자 닉 프로스트는 <와이어드>에 “새로운 인공지능 모델 설계나 구조, 그리고 인간 피드백에 기반한 추가 조정이 유망한 방향”이라며 “이미 많은 연구자들이 여기에 뛰어들었다”고 말했다. 예컨대 사람이 인공지능 답변의 질을 판단하는 과정을 거치도록 하는 방식으로, 인공지능의 고품질 답변을 유도한다는 것이다.

올트먼은 오픈에이아이가 지피티5를 개발하고 있다는 항간의 소문을 일축하고 “현재 개발하고 있지 않으며, 당분간 그럴 것”이라고 말했다.

곽노필 선임기자 nopil@hani.co.kr

Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지

이 기사에 대해 어떻게 생각하시나요?