데이터브릭스, 국내 첫 오프라인 행사 개최...오픈소스 언어모델 ‘돌리 2.0’ 공개

정호준 기자(jeong.hojun@mk.co.kr) 2023. 4. 25. 16:24
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

‘데이터+AI 월드 투어’ 연례 행사 개최
오픈소스 언어모델 ‘돌리 2.0’ 선보여
이마트24, 데브시스터즈, 위버스, 무신사 등
국내 파트너사 사례 발표 진행
크리스 디아고스티노(Chris D‘Agostino) 데이터브릭스 글로벌 필드 CTO [사진 제공 = 데이터브릭스]
지난해 4월 한국에 진출한 데이터 레이크하우스 기업 데이터브릭스가 25일 서울 삼성동 인터컨티넨탈호텔에서 첫 오프라인 행사 ‘데이터+AI 월드 투어’를 열고 새로 업데이트된 기술과 파트너 성공 사례를 공유했다.

특히 이번 행사에는 크리스 디아고스티노(Chris D‘Agostino) 데이터브릭스 글로벌 필드 CTO가 참여해 직접 오픈소스 대형언어모델(LLM)인 ‘돌리 1.0’의 업그레이드 버전 ‘돌리 2.0’을 공개했다. 돌리 2.0은 지난달 데이터브릭스가 처음 돌리 1.0을 선보인 이후 2주만에 내놓은 것으로, 60억개였던 파라미터를 120억개로 키웠다.

돌리 2.0은 오픈소스로 공개되어 기관이나 기업들이 자유롭게 상업적인 용도로 활용할 수 있는 것이 특징이다. 돌리 1.0의 경우 스탠포드 대학교에서 생산한 데이터를 학습하던 과정에 챗GPT의 데이터가 일부 포함되어 있어 상업적으로 사용하는 데 제한이 있었다. 데이터브릭스는 내부에서 자체적으로 5000명의 임직원들이 작성한 Q&A 데이터를 활용해 이를 해결했다. 즉, API 액세스 비용이나 제3자와의 데이터 공유 없이도 자체적인 언어모델을 생성하고 맞춤화하여 소유할 수 있게 한 것이다.

디아고스티노 CTO는 키노트 이후 진행한 밋업 세션에서 “돌리 2.0을 통해 챗GPT 기능을 훨씬 작은 모델, 적은 데이터셋으로 할 수 있다는 것을 입증하려 했다. 완전한 상용 인프라를 제공한다기 보다는 연구 결과를 선보이는 차원”이라고 설명하며 “다만 모델, 코드, 학습 세트를 모두 공개해 다양한 조직에서 니즈에 맞게끔 활용할 수 있다는 데 의의가 있다”고 말했다.

최근 데이터브릭스의 돌리뿐만 아니라 오픈소스 진영에서도 LLM을 오픈소스화하려는 노력이 등장하고 있다. 일례로 스태빌리티AI도 최근 ‘스테이블LM’을 오픈소스로 공개한 바 있다. 이러한 양상에 대해 디아고스티노 CTO은 “크게 보면 기계와 사람의 상호작용에 대해 소수의 거대기업이 완전한 통제력을 가질 수 있다는 것에 대한 우려의 표현”이라고 보았다.

또한 “고객들의 노하우와 자산은 데이터안에 있다. 고객들도 데이터를 기반으로 하는 이런 서비스를 통제하기 원하기에 오픈소스화되는 것은 당연한 수순”이라며 “앞으로 오픈소스에서도 거대언어모델이 많이 활성화될 것으로 보인다. 돌리 또한 오픈소스 진형의 한 방향으로 봐주면 좋을 것 같다”고 말했다.

데이터브릭스의 이번 행사는 데이터브릭스의 기조연설과 함께 기술·개발자·고객사례의 3개 트랙으로 나누어 총 18개의 세션이 진행된다. 이마트24, 데브시스터즈, 무신사를 포함한 9개의 고객사가 참여해 데이터 기반의 사례를 공유한다.

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?