오픈AI 큰일 났다! 오픈소스 땜에![미라클레터]

이덕주 기자 2023. 7. 10. 10:51
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

안녕하세요 이덕주 기자입니다.

지난 주 저는 데이터브릭스 라는 회사가 샌프란시스코에서 개최한 ‘DATA+AI 2023’에 다녀왔어요. 데이터브릭스라는 회사에 대해서 미라클레터에서 한번 소개시켜드린 적이 있었는데요.

이렇게 실리콘밸리에 오니 직접 이 회사의 행사에 참여해볼 기회가 생겼습니다. 오늘은 DATA+AI 2023 에서 발견한 AI 산업 동향을 한번 설명 드려보도록 하겠습니다!

DATA+AI 에서 발표하는 알리 고드시 데이터브릭스 CEO <사진=데이터브릭스>
오픈소스 AI 진영의 공격이 시작됐다!
DATA+AI 가 시작하는 첫날. 데이터브릭스라는 곳에서 한가지 뉴스를 발표했어요. 바로 ‘모자이크ML(MosaicML)’이라는 스타트업을 13억달러에 인수한다는 것. 2020년 만들어진 3년도 안된 스타트업을 약 1.7조원에 인수하기로 한 거에요. 데이터브릭스라는 회사도 잘 모르겠는데, 모자이크ML 은 또 뭐하는 회사죠?

다음날 DATA+AI 의 키노트에는 알리 고드시 데이터브릭스 CEO 와 나빈 라오 모자이크ML CEO 가 등장해 이번 딜의 의미에 대해서 설명했어요. 저는 그제서야 이 딜의 의미를 알았답니다.

바로 오픈AI 에 대한 오픈소스 진영의 공격이 본격화 되었다는 것이에요.

오픈AI? 오픈소스AI? 이름부터 헷갈리죠? 먼저 오픈소스란 무엇이고, 오픈소스 AI 가 무엇인지에 대해서 알고 싶으시다면 이 레터를 읽어보시면 자세하게 아실 수 있어요.

기업 맞춤형 생성형AI .. 가능할까요? <모자이크ML>
챗GPT? 빌리지 말고 직접 소유하세요!
지금의 AI 산업을 이끄는 회사인 오픈AI 는 자신들의 AI 모델을 비공개하고 있어요. 이건 구글 같은 빅테크 기업도 마찬가지. AI 시장의 판도가 폐쇄적인 쪽으로 흘러가자 AI 도 오픈소스로 만들어야 한다는 기업과 개발자들이 등장했어요. 하지만 오픈소스로는 챗GPT 같은 뛰어난 성능의 AI 를 만들기도 어렵고, 이를 상업화하기도 쉽지 않았죠. AI 를 만드는 데는 많은 돈과 인력이 필요하니까요.

하지만 수많은 오픈소스 개발자들의 노력으로 점차 챗GPT 에 준하는 성능의 AI 가 등장하고 있어요. 그 시발점이 되었던 것이 올해 2월 메타가 공개했던 라마(LLaMA)이고, 모자이크ML 은 올해 5월 오픈소스로 MPT-7B 라는 LLM 을 공개하면서 많은 관심을 받은 기업이에요.

모자이크ML 은 특히 오픈소스이면서 상업화가 가능하고, 학습비용도 무척 적게 드는 모델을 만들 수 있다고 주장하고 있어요. 오픈AI에 자사의 데이터를 공개하지 않고, 자사 데이터를 가지고 독자적인 LLM 과 서비스를 만들고 싶어하는 대기업, 중소기업에게 어필하고 있죠.

모자이크ML 에 따르면 기업이 LLM을 구축하는 데 드는 비용은 25만달러(MPT-7B), 87만달러(MPT-30B)에 불과하다고 해요. 3억-10억원 정도면 회사마다 자체적인 챗GPT 를 가질 수 있다는 뜻이죠.

메타의 수석 AI 과학자인 얀 르쿤 교수님은 라마를 좋아하는 것 같습니다.
빅데이터 회사가 생성형AI 뛰어든 이유

최근 챗GPT 가 유행하면서 한국에서도 ‘우리 회사도 챗GPT로 뭐 해봐야 하는 거 아니야?’ 이런 회사들이 많은데요. AI를 이용해서 기업 내부의 생산성을 높이는 데 쓰는 것을 엔터프라이즈 AI라고 해요. 이 엔터프라이즈 AI 시장에 챗GPT 같은 LLM(거대언어모델)을 도입하는 것이 최근의 이슈랍니다.

기업들 입장에서는 오픈AI 나 MS에 우리 데이터를 공개하는 것이 꺼림직하기는 하지만 그렇다고 많은 돈을 들여서 직접 LLM 을 만드는 것도 버거워요. 그래서 모자이크ML 같은 회사들이 나오는 겁니다.

데이터브릭스가 모자이크ML 을 인수하게된 것은 모자이크ML 을 자신들의 고객에게 서비스할 수 있을 것이라는 기대감이 있기 때문이에요. 여기서 잠깐 데이터브릭스가 어떤 회사인지 살펴볼까요?

오픈소스는 스타트업들에 기회
데이터브릭스는 아파치 스파크라는 오픈소스 데이터 처리 프레임워크를 만든 사람들이 세운 회사예요. UC버클리의 교수, 대학원 등이 주축이 되었는데 쉽게 말하면 그냥 데이터회사에요. 🤣 고객 기업들이 데이터를 잘 사용해줄 수 있도록 도와주면서 매출을 올린다고 볼 수 있어요. 그런데 충분한 데이터를 가진 회사라면 그걸 AI 학습에 사용할 수 있어요. 즉, 데이터브릭스의 고객은 모두 모자이크ML 의 고객이 될 수 있는 거죠.

오픈소스로 오픈AI 와 경쟁하려는 것은 데이터브릭스/모자이크ML 만이 아니에요. 라마 모델을 만든 메타도 조만간 이를 상업화할 수 있도록 한다고 해요. 그렇다면 이 라마를 가지고 모자이크ML 처럼 기업들에 서비스하려는 스타트업들이 나오겠죠. 오픈AI 와 같은 폐쇄적인 AI에 도전하는 오픈소스 기반의 스타트업들이 계속 나올 것 같아요.

AMD 의 AI 가속기 MI250 <사진=AMD>
엔비디아 GPU 안써도 된다!!
얼마 전 모자이크ML 은 재미있는 AI 학습 결과를 발표했는데요. 바로 반도체 회사 AMD 의 MI250, MI300이라는 AI가속기(=GPU)를 가지고 자신들의 모델(LLM)을 학습시켰는데 성능이 엔비디아의 GPU 로 학습할 때와 비교해 성능이 괜찮았다는 것이었어요.

모자이크ML 의 CEO이자 공동창업자인 나빈 라오는 너바나(Nervana)라는 AI 반도체 스타트업을 창업해서 인텔에 매각하기도 했던 사람이에요. 그런 점에서 모자이크ML 의 이런 발표가 꽤 신빙성이 있다고 볼 수 있어요!

미라클러님들도 아시겠지만 AI 반도체 시장에서 엔비디아는 절대적인 점유율을 차지하고 있어요. 구글, 아마존, AMD 등 많은 기업이 엔비디아에 도전하기 위해 AI 반도체를 내놓고 있고 스타트업들도 나오고 있지만 아직 엔비디아의 철옹성을 흔든 기업은 없어요.

하지만 AMD의 AI반도체로 오픈소스 모델을 학습시켜도 괜찮은 성능이 나온다면 기업들은 오픈소스+AMD라는 대안을 검토해볼 수 있을 것 같아요. AI 성능보다 비용을 중요하게 생각하는 회사라면 말이죠. 이처럼 모델뿐만 아니라 AI 반도체 분야에서도 스타트업들의 도전이 거세게 이뤄지고 있습니다.

다시 커진 데이터의 중요성!

모자이크ML 과 같은 오픈소스가 오픈AI에 도전한다는 것의 의미는, AI를 만들거나 사용하는 것이 점차 비용이 낮아지고 대중화가 된다는 의미에요. 이렇게 되면 가장 중요한 것은 ‘데이터’가 됩니다. 어떤 ‘데이터’를 가진지가 기업의 경쟁력이 될 것이라고, 데이터브릭스는 콘퍼런스에서 주장했어요. 그러니 그 데이터를 외부에 공개하지 말고 직접 AI 를 구축하라는 것이 DATA+AI 콘퍼런스의 첫번째 기조연설의 핵심이었습니다.

저는 DATA+AI 콘퍼런스에서 서울대 데이터사이언스 대학원 초대 원장을 지내셨던 차상균 교수님(사진)을 만났는데요. 교수님께서는 티아이엠시스템이라는 스타트업을 창업해 SAP에 기술을 매각한 것으로 유명한 분이시죠. 교수님께서는 이번 행사를 경험하고서 “생성형 AI 전쟁이 데이터 중심의 새로운 전쟁으로 바뀌고 있다”고 설명하셨어요.

챗GPT 가 등장하면서 처음에는 사람들이 모델에 관심을 많이 가졌어요. GPT-3 나 GPT-4 를 만드는 방법이나 매개변수의 숫자에 관심이 쏠렸죠. 그러다 학습과 추론의 기초가 되는 AI 반도체에 다시 관심이 쏠렸어요. 모델보다 반도체와 컴퓨팅 파워가 더 중요하다고 생각하게된거죠. 하지만 이제는 AI에서 데이터의 중요성이 커지고 있어요. 초기 AI 들은 인터넷상의 데이터를 크롤링해서 학습에 사용할 수 있었어요. 하지만 이제는 사람들이 데이터 저작권에 매우 민감해하면서 크롤링을 하는 것이 쉽지 않아졌어요. 미국에서는 레딧이 AI의 학습에 돈을 받으려다가 역풍을 맞기도 했죠.

데이터브릭스 CEO와 대담하는 마크 안데르센 a16z 창업자 <데이터브릭스>
테크의 전설, 마크 안드레센을 만나다
DATA+AI의 셋째 날, 실리콘밸리에 오면 꼭 만나보고 싶은 사람을 만났습니다. 바로 안드레센호로위츠, 약자로 a16z 로 알려진 벤처캐피털의 창업자이자 파트너인 마크 안드레센이죠. a16z 는 세콰이아캐피탈과 함께 실리콘밸리에서 가장 영향력있는 벤처투자회사라고 볼 수 있어요. 마크 안드레센 본인도 넷스케이프를 창업한 전설적인 투자자입니다.

마크 안드레센이 이 행사에 참여한 것은 a16z 가 데이터브릭스에 투자했기 때문.. 이 아니라 본인이 요즘 AI 에 대해서 많은 생각을 남기고 있기 때문인데요. 그는 2011년 ‘소프트웨어가 세계를 먹어 치우고 있다(Software is eating the world)’라는 유명한 말을 남겼고 그의 말대로 소프트웨어 기업들이 계속 승승장구하고 있죠.

지난달 6일 그는 ‘AI 가 세상을 구원하게되는 이유(Why AI will save the world)’라는 글을 올렸어요. 이 글은 AI에 대한 ‘일단 멈춤’이 필요하다는 주장에 대한 응답으로 나왔고 벤처캐피탈리스트 답게 기업들의 혁신을 막아서는 안된다는 주장을 하고 있어요. 그리고 미국이 자국 기업들의 AI 연구를 막는다면 중국의 AI 기술이 미국을 추월할 것이라는 결론을 내고 있어요. 이는 미국 정부가 최근 중국에 엔비디아 반도체 수출을 금지하고, 중국기업에 미국 업체의 클라우드 사용까지 제한하려는 움직임과 연장선에 있어요. AI는 이미 미·중 기술 경쟁의 가중심에 서 있다는 걸 저는 느낄 수 있었어요.

맺음말
생성형AI (Generative AI) 가 테크업계의 트렌드 중심에 서기 시작한 것이 지난 해부터였고, 지난해 11월부터 챗GPT 의 광풍이 불기 시작했죠. 그 사이에 AI 의 발전속도는 놀라울 정도입니다. 하지만 AI 기술의 발전속도만큼이나 이 산업의 판도도 빠르게 바뀌고 있어요. 오픈소스 AI 가 오픈AI 나 구글에 도전하고 있고, AI 학습에서 데이터의 중요성이 더 부각되고 있습니다.

생성형 AI 의 열풍(Hype)를 일찍부터 다룬 미라클레터가 보기에는 이제 Hype 는 가라앉고 냉정하게 숫자를 따져봐야 하는 시기에 도달한 것이 아닌가 생각해보게됩니다.

마크 안데르센의 발표 내용 중 인상적인 부분이 하나 있었는데요. 바로 미디어 이론가로 유명한 마샬 맥루한의 말을 인용한 것이에요. 정확한 워딩은 아니지만 이런 내용이었어요.

“다음 세대의 미디어는 지난 세대의 미디어를 콘텐츠로 포함한다”

처음 라디오가 등장했을 때 라디오는 신문을 읽어주는 것이 중요 콘텐츠였어요. TV는 시각화된 라디오였구요. 인터넷의 핵심 콘텐츠는 영상이죠. 그는 AI 가 넥스트 인터넷이 된다면 그 안에는 지금 우리가 경험하는 인터넷을 포함해 기존의 모든 미디어가 들어있을 것이라고 설명했어요.

과연 AI 가 스마트폰이나 인터넷 같은 거대한 기술 혁명을 만들어낼까요? 미라클레터는 여러분과 함께 미래를 고민하겠습니다. 긴 내용 읽어주셔서 감사합니다.

당신의 멋진 미래를 응원합니다

이덕주 드림

미라클레터 “미라클 모닝을 하는 직장인들의 참고서”인 미라클레터를 구독해 보세요. 매일 아침 7만4000명 이상이 미라클레터로 미라클 모닝을 하고 있습니다. 매경미디어그룹의 실리콘밸리 특파원과 미라클랩 기자들이 글로벌 트렌드, 테크놀로지 소식, 빅테크 주식, HR·리더십, 혁신 문화 스토리 등을 인사이트 있게 담아, 주 3회 이상 새벽 시간대에 이메일로 보내드립니다.
미라클레터 구독하러 가기

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?