"한국어기반 AI소스 공개합니다 마음껏 쓰세요"

이덕주 2022. 11. 1. 14:57
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

AI 오픈소스 '폴리글롯 한국어'

"초거대 인공지능(AI) 모델이 오픈소스로 공개되면서 이제는 사업 아이디어만 있으면 누구나 AI로 비즈니스를 할 수 있게 됐다."

최근 기자와 인터뷰한 고현웅 씨(27)의 설명이다. 그는 튜닙이라는 AI 스타트업에서 머신러닝 엔지니어로 일하면서 각자 소속이 다른 한국인 AI 개발자 8명과 함께 만든 한국어 초거대 모델 '폴리글롯 한국어(polyglot korean)'를 지난달 공개했다. 최근 전 세계 AI 업계에서는 파라미터(AI 연구에 쓰이는 매개변수)와 학습 데이터를 크게 늘리는 '초거대 모델'이 보편적인데, 폴리글롯 한국어는 58억개 파라미터로 1.2테라바이트(TB)에 달하는 데이터를 학습한 모델이다.

기존에도 네이버(하이퍼클로바), 카카오(KoGPT), LG(엑사원) 등이 이 같은 한국어 모델을 내놓았지만 상업적 용도로도 쓸 수 있는 완전한 '오픈소스'를 내놓은 것은 고씨가 속한 폴리글롯 한국어 팀이 처음이다. 네이버 하이퍼클로바의 초거대 AI는 매개변수가 2040억개로, 폴리글롯은 400억개까지 매개변수를 늘리고 일본어·베트남어 등 다른 아시아 국가 언어로까지 확장하는 것이 목표다.

고씨와 함께 이번 폴리글롯 한국어 모델 개발에 참여한 양기창 씨(26)는 카카오에서 AI를 개발했다. 양씨는 "초거대 오픈소스 언어모델은 영어·중국어 등 사용자가 많은 언어에 주로 있었다"면서 "우리가 오픈소스 모델을 내놓으면서 한국 스타트업들도 무료로 이것을 가지고 사업할 수 있게 됐다"고 설명했다. 언어 기반의 초거대 모델은 챗봇, 번역 등 텍스트를 사용하는 여러 분야에서 활용된다.

기업도 아닌 개발자 8명이 어떻게 대기업에서나 하는 초거대 모델을 만들 수 있었을까. 폴리글롯 팀은 일루서(Eleuther)AI라는 전 세계 오픈소스 AI 프로젝트 커뮤니티에 속해 있다. 이 커뮤니티는 스태빌리티AI라고 하는 기업에서 초거대 모델 학습을 위한 연산능력을 제공받고 있다. AI 연구에 쓰이는 그래픽처리장치(GPU) 사용을 지원받은 것이다. 고씨는 "AI 연구에 쓰이는 GPU는 1대에 수억 원에 달하는 고가 장비로, 국내에서도 정부 기관에서 이것을 빌려주고 있으나 대부분 10대 이하 규모의 지원"이라면서 "스태빌리티AI는 일반 개발자들이 수백 대씩 쓸 수 있도록 빌려주고 있다"고 말했다. 폴리글롯 팀도 스태빌리티AI에서 GPU를 지원받아 모델을 완성할 수 있었다.

스태빌리티AI가 이를 무료로 빌려주는 것은 개발자가 오픈소스로 자유롭게 개발하는 데서 나오는 생태계 확장이 더 큰 효과가 있다고 보기 때문이다. 스태빌리티AI는 지난 8월 스테이블디퓨전이라는 '텍스트투이미지(Text-to-Image)' 모델을 무료로 공개해 AI 시장에 큰 충격을 주기도 했다. 텍스트만 입력하면 AI가 그림을 그려주는 모델인데, 가볍고 성능이 좋으면서도 무료인 모델을 공개한 것이다.

양씨는 "오픈소스 모델은 대기업에서 만든 것보다 품질이 떨어지는 것은 사실"이라면서도 "하지만 돈이 없는 스타트업 입장에서는 오픈소스를 활용하는 것이 저렴하다"고 말했다. 그는 "각종 규제나 리스크를 항상 생각해야 하는 대기업에 비해 스타트업이 오픈소스를 활용하는 것은 혁신을 촉진하는 측면이 있다"면서 "이런 오픈소스로 인해 전 세계 AI 연구개발이 폭발적으로 증가하고 있다"고 덧붙였다.

[이덕주 기자]

[ⓒ 매일경제 & mk.co.kr, 무단전재 및 재배포 금지]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?