네이버 "압축기술로 AI 성능병목 풀것"

김영욱 2024. 10. 14. 17:46
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

산기협 AI 공동포럼서 이유 설명
AI속도경쟁에 반도체 비용 부담
이동수 이사 "지속가능 발전 목표"
이동수 네이버클라우드 하이퍼스케일 AI 이사가 14일 서울 양재 엘타워에서 열린 '코리아 인더스트리 AI 공동포럼'에서 발표를 하고 있다. 김영욱 기자

"GPT 같은 AI모델은 0.1초 안에 100GB에 달하는 데이터를 읽고 토큰을 만들어내야 이용자들이 답답하다고 느끼지 않는다. 그 결과 높아진 모델 개발 비용이 이슈화되고 있다. 네이버가 AI반도체 개발에 나선 이유다."

이동수 네이버클라우드 하이퍼스케일 AI 이사는 14일 한국산업기술진흥협회가 서울 서초구 엘타워에서 개최한 '코리아 인더스트리 AI 공동포럼'에서 "인공지능(AI)의 발전을 하드웨어가 따라오지 못하고 있다"면서 네이버가 반도체 솔루션을 개발하는 이유를 밝혔다.

AI 개발기업들은 AI의 '응답 속도'를 끌어올리는데 심혈을 기울이고 있다. 사용자가 던진 질문에 AI가 답을 내놓는 시간이 너무 오래 걸리면 이용자 이탈로 이어질 수 있기 때문이다.

네이버는 지난 4월 KAIST, 인텔과 'AI 공동연구센터'를 설립하고 AI 반도체 연구를 하고 있다. AI반도체 시장을 독점하고 있는 엔비디아에 도전장을 낸 것이다. 이들은 AI 반도체·서버와 클라우드·데이터센터 등의 성능을 높이는 기술 개발에 집중하고 있다.

이동수 이사는 "GPT는 토큰 한 개를 만들기 위해 모델 전체 데이터를 다 읽어야 한다. 0.1초 내에 수백 GB를 읽어내야 1차 예선을 통과한 것이고, 이 예선을 통과해야 AI 품질을 평가할 수 있다"며 "이 부분에서 HBM같이 빠른 메모리가 필요해 비용이 급상승하고 있다"고 밝혔다.

실제로 지난달 12일 공개된 오픈AI의 'o1-프리뷰' 모델은 토큰 하나당 막대한 비용이 든다. 'o1-프리뷰' 모델은 사람처럼 생각할 수 있는 '추론'에 특화된 모델이다.

이 이사는 "특히 o1 같은 추론 모델은 일반 모델보다 비용이 30배가량 많이 든다"며 "0.1초에 넷플릭스 수천 편을 다운로드하는 수준에서 수천만 편을 다운로드하는 수준으로 빠른 전송속도를 요구한다"고 설명했다.

이 가운데 반도체 연산 능력이 AI모델의 비약적인 발전을 따라가지 못하는 상황이 이어지고 있다.

이 이사는 "AI모델 사이즈는 2년에 400배 커졌는데 메모리 용량은 HBM 기준으로 2년에 2배 정도 발전했으니 그 격차가 매우 크다"면서 "AI 모델은 더 많은 메모리를 필요로 한다. 엔비디아가 출시한 H100은 전 모델인 A100에 비해 전력 소모가 75% 늘어나고 메모리 용량과 속도는 60% 증가했다. 여기서 문제가 발생했다"며 MS가 지난해 11월 공개한 A100과 H100의 비교 자료를 공유했다.

MS 자료에 따르면, 메모리 대역폭이 60% 증가하면 토큰 하나를 처리하는 데 드는 시간(TBT)이 60% 줄어야 하지만 실제로는 30%밖에 감소하지 않았다. 이 이사는 "하드웨어 스펙상으로는 60%로 되어 있으나, LLM을 적용하니 30%밖에 나오지 않았다. MS는 H100으로 토큰을 생성하기보다 A100을 사용하는 것이 더 좋다고 주장한다. 심지어 H100 성능을 떨어뜨려 A100처럼 쓰자고도 한다"고 설명했다.

여기에다 롱 시퀀스를 더 많이 요구하면서 비용이 급증했다고 짚었다. 롱 시퀀스는 자연어 처리에서 긴 길이의 입력데이터를 일컫는다. 최근 모델은 책 10권, 1시간짜리 유튜브 영상을 하나의 질의에 넣고 질문할 수 있게 지원한다. 이때도 메모리 요구사항이 문제가 된다. 이 가운데 AI 비용을 최대한 통제하기 위해 AI 개발기업들은 최적화 및 경량화 기술 개발에 몰두하고 있다.

이 이사는 "최신 엔비디아 GPU 하나 당 100GB의 메모리를 탑재할 수 있는데, 롱 시퀀스 구현은 최소한 1TB를 요구한다. 롱시퀀스를 구현하는데만 최소한 엔비디아 제품 100개가 필요한 것"이라면서 네이버는 압축 기술에 초점을 두고 있다고 말했다. 그는 "엔비디아를 비롯해 기업들이 압축 기술을 실용화하지 못한 것은 압축률과 병렬화(패러럴리즘)가 반비례 관계이기 때문이다. 압축할수록 GPU 등 컴퓨팅 속도가 느려진다"며 "네이버는 고전적인 반도체 기술이 아니라 AI 본연에 맞춰 근본적인 수정 작업을 하고 있다. 이를 통해 AI 서비스 비용을 낮춰 지속 가능한 AI 발전을 이루는 게 목표"라고 밝혔다.

한편 지난 5월 개최 이후 2회째를 맞이한 '코리아 인더스트리얼 AI 공동포럼'은 산기협을 비롯해 서울대 AI연구원, 네이버클라우드, 포스코홀딩스, LG AI연구원이 공동 주최했다. 이날 행사에서는 오준호 레인보우로보틱스 창업자와 조원우 한국마이크로소프트 대표도 발표했다. 김영욱기자 wook95@dt.co.kr

Copyright © 디지털타임스. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?