"공짜로 쓰세요"…메타, AI 언어모델 오픈소스로 내놓은 이유

'라마 2' 공개…"오픈소스로 진전"
가짜정보·스팸 등 범람 우려 비판도

"생태계가 개방될수록 더 많은 진전이 가능할 거라 믿는다. 그것이 바로 오픈소스 모델인 '라마 2(Llama 2)'를 내놓은 이유다." - 마크 저커버그 메타플랫폼 최고경영자(CEO)

메타가 18일(현지시간) 대규모 언어모델(LLM) 라마 2를 오픈소스로 공개했다. 지난해 11월 오픈AI의 챗GPT가 대중에 공개된 이후 전 세계에 생성형 AI 열풍이 불고 마이크로소프트(MS)와 구글이 주도권을 쥐기 위한 경쟁에 돌입했다. 생성형 AI 훈련의 핵심은 LLM이다. LLM 기술과 관련해선 기밀을 엄수해왔던 다른 업체들과 달리 메타는 그동안 보유하고 있던 기술력을 오픈소스로 공개, 새로운 전략으로 맞서고 있다.

◆ "상업용으로도 활용 가능" 그 속에 숨은 메타의 속마음

메타는 지난 2월 처음으로 '라마'를 공개할 때부터 오픈소스 전략을 도입했다. 이번 발표가 지난번과 다른 건 처음 라마를 공개할 땐 오픈소스로 기술은 공개해도 상업적 사용은 불가능했다면, 이번에는 '연구 및 상업적 용도에 대해 무료로 활용 가능하다'고 밝혔기 때문이다. MS, 아마존, 퀄컴, LG 등 다른 기업과 손을 잡겠다고 선언도 했다.

여기에 성능은 한층 업그레이드했다. 라마2는 70억~700억 개의 파라미터 버전을 지원하며 2조 개 토큰으로 사전 훈련됐다. 한 번에 처리할 수 있는 콘텍스트 양은 4096개 토큰으로 기존 모델 대비 대폭 증가했다. 콘텍스트 양이 늘어날수록 명령어를 한번 입력할 때 처리할 수 있는 정보량이 많아진다. 기술력은 강화하되 그 기술을 사용할 수 있는 분야를 더 풀어준 것이다.

이처럼 메타가 자체 인력과 자원을 총동원해 개발한 LLM을 오픈소스로 공개한 이유에 대해 저커버그 CEO는 자신의 페이스북 페이지에 "소프트웨어가 공개되면 더 많은 사람이 이를 세심하게 살펴 잠재적으로 발생할 이슈를 식별하고 수정할 수 있다"고 강조했다. 산업 전반적으로 긍정적인 측면이 있다고 강조한 것이다.

사실 메타 입장에서는 회사 외부 프로그래머가 오픈소스로 제공된 LLM을 활용하고 그 과정에서 발생한 문제점 등을 정보로 얻어 AI 실험에 활용할 수 있다.

또 메타의 오픈소스 전략에는 MS와 구글 등 빅테크 기업이 앞다퉈 AI 주도권 경쟁에 뛰어든 상황에서 자신들이 개발한 기술을 확대 보급하겠다는 의중도 담겨있는 것으로 보인다. 뉴욕타임스(NYT)는 메타의 라마 2를 과거 구글이 안드로이드 운영 시스템을 오픈 소스로 내놓은 것에 비유했다. 당시 애플의 아이폰과 경쟁하기 위해 오픈 소스 전략을 택했는데 이로 인해 안드로이드는 결국 핵심 스마트폰 소프트웨어로 자리 잡을 수 있게 됐다. 비슷한 방식으로 AI의 핵심 기술인 LLM에서부터 주도권을 쥐겠다는 것으로 풀이된다.

MIT테크놀로지리뷰는 "메타가 라마 2를 오픈소스로 공개해 오픈AI와 같은 경쟁자로부터 우위에 서길 바라고 있다"고 평가했다.

◆ "오픈소스로 가짜정보 범람" 지적도 이어져

하지만 메타의 오픈소스 전략은 AI 업계에서 비판받기도 한다. AI 관련 규정이 미비하고 기술 자체도 아직 사회·경제적으로 해결해야 할 과제가 많은 상황에서 오픈소스가 자칫 더 큰 타격으로 이어질 수 있다는 지적이 나온다. 오픈소스를 활용해 스팸이나 금융사기, 가짜정보가 폭발적으로 늘어나는 문제가 발생할 수 있다는 우려가 쏟아진다.

생성형 AI 바람을 불러일으킨 오픈AI가 바로 이러한 비판을 내놓는 대표적인 회사다. 오픈AI는 2015년 AI 기술을 특정 회사가 독점하는 것을 막아야 한다며 비영리단체로 창업, 이후 기술을 대중에 공개하겠다고 했으나 최근 들어 입장 변화를 보였다.

일야 숫츠케버 오픈AI 공동창업자 겸 수석 사이언티스트는 지난 3월 IT 전문매체 더버지와의 인터뷰에서 회사가 기술을 오픈소스화하겠다고 했던 것을 두고 "잘못됐다"고 평가하면서 "수년 안에 모든 사람이 AI를 오픈소싱으로 내놓는 건 현명하지 않은 것이라는 점을 확실하게 깨닫게 될 것"이라고 말했다.

메타 측은 오픈소스로 라마 2를 공개해도 위험성은 크지 않다는 입장을 내놨다. 가짜 정보나 혐오 발언이 쏟아지는 문제는 오픈소스가 공개되지 않아도 이미 발생하고 있는 문제이고, 다른 기술 기업들이 오히려 이러한 문제를 해결하기 위한 대응책을 강화할 수 있을 것으로 메타 경영진이 판단하고 있다고 NYT는 전했다.

메타는 또 이러한 문제를 해결하기 위해 사전에 '레드팀'을 가동해 문제를 확인, 보완했다고 설명했다. 레드팀은 해커의 입장이 돼 자사나 고객의 시스템을 모의로 공격하는 조직을 말한다. 또 메타는 개발자들이 책임감 있게 이를 사용할 수 있도록 별도 가이드를 만들어 공개했다.

다만 메타는 투명성과 산업의 발전을 위해 라마 2를 오픈소스로 공개했다고 하지만, 이를 훈련하는 데 활용한 데이터에 대해서는 공개를 하지 않는다는 지적도 받고 있다. 메타는 라마 2를 공개하면서 이를 설명하는 연구 보고서를 내놨는데 거기에 훈련 시 활용한 데이터에 대해 "공개적으로 활용 가능한 온라인 데이터"라고만 표현했다. 지난 2월 처음 라마를 공개했을 당시만 해도 구체적으로 어떤 데이터가 사용됐는지 표로 정리돼 있었는데 이번에는 달랐던 것이다.

미 경제매체 비즈니스인사이더는 이러한 설명이 일반적이지 않다고 지적했다. AI 업계에서는 모델에 어떤 정보가 사용됐는지를 공개함으로써 해당 모델의 성능을 판단하곤 했기 때문이다.

정현진 기자 jhj48@asiae.co.kr