데이터브릭스, 국내 첫 오프라인 행사 개최...오픈소스 언어모델 ‘돌리 2.0’ 공개
오픈소스 언어모델 ‘돌리 2.0’ 선보여
이마트24, 데브시스터즈, 위버스, 무신사 등
국내 파트너사 사례 발표 진행
특히 이번 행사에는 크리스 디아고스티노(Chris D‘Agostino) 데이터브릭스 글로벌 필드 CTO가 참여해 직접 오픈소스 대형언어모델(LLM)인 ‘돌리 1.0’의 업그레이드 버전 ‘돌리 2.0’을 공개했다. 돌리 2.0은 지난달 데이터브릭스가 처음 돌리 1.0을 선보인 이후 2주만에 내놓은 것으로, 60억개였던 파라미터를 120억개로 키웠다.
돌리 2.0은 오픈소스로 공개되어 기관이나 기업들이 자유롭게 상업적인 용도로 활용할 수 있는 것이 특징이다. 돌리 1.0의 경우 스탠포드 대학교에서 생산한 데이터를 학습하던 과정에 챗GPT의 데이터가 일부 포함되어 있어 상업적으로 사용하는 데 제한이 있었다. 데이터브릭스는 내부에서 자체적으로 5000명의 임직원들이 작성한 Q&A 데이터를 활용해 이를 해결했다. 즉, API 액세스 비용이나 제3자와의 데이터 공유 없이도 자체적인 언어모델을 생성하고 맞춤화하여 소유할 수 있게 한 것이다.
디아고스티노 CTO는 키노트 이후 진행한 밋업 세션에서 “돌리 2.0을 통해 챗GPT 기능을 훨씬 작은 모델, 적은 데이터셋으로 할 수 있다는 것을 입증하려 했다. 완전한 상용 인프라를 제공한다기 보다는 연구 결과를 선보이는 차원”이라고 설명하며 “다만 모델, 코드, 학습 세트를 모두 공개해 다양한 조직에서 니즈에 맞게끔 활용할 수 있다는 데 의의가 있다”고 말했다.
최근 데이터브릭스의 돌리뿐만 아니라 오픈소스 진영에서도 LLM을 오픈소스화하려는 노력이 등장하고 있다. 일례로 스태빌리티AI도 최근 ‘스테이블LM’을 오픈소스로 공개한 바 있다. 이러한 양상에 대해 디아고스티노 CTO은 “크게 보면 기계와 사람의 상호작용에 대해 소수의 거대기업이 완전한 통제력을 가질 수 있다는 것에 대한 우려의 표현”이라고 보았다.
또한 “고객들의 노하우와 자산은 데이터안에 있다. 고객들도 데이터를 기반으로 하는 이런 서비스를 통제하기 원하기에 오픈소스화되는 것은 당연한 수순”이라며 “앞으로 오픈소스에서도 거대언어모델이 많이 활성화될 것으로 보인다. 돌리 또한 오픈소스 진형의 한 방향으로 봐주면 좋을 것 같다”고 말했다.
데이터브릭스의 이번 행사는 데이터브릭스의 기조연설과 함께 기술·개발자·고객사례의 3개 트랙으로 나누어 총 18개의 세션이 진행된다. 이마트24, 데브시스터즈, 무신사를 포함한 9개의 고객사가 참여해 데이터 기반의 사례를 공유한다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- 100억에 팔렸다던 반포 재건축아파트, 3개월만에 거래취소, 집값 띄우기? - 매일경제
- “대기업에 취업하지 말라”...1조 굴리는 연봉킹이 본 ‘부자되는 법’ [신기자톡톡] - 매일경제
- “돈 안갚으면 성관계 영상 유포한다”…사채업자 빚 독촉 대처법은 - 매일경제
- “이틀연속 하한가라니”…SG증권發 매도폭탄에 개미들 패닉 - 매일경제
- “주차장에 세워둔 내차 사라져”…이웃 주민이 몰래 팔았다 - 매일경제
- 애플 홀로서기 나서지만...“한국산 이 부품은 차마 못뺄걸?” - 매일경제
- “교회에 십일조 안 내도 돼”…전두환 손자 ‘소신 발언’ - 매일경제
- [단독] 규제에 발목잡힌 ‘한국판 애플통장’…5개월만에 가입 중단 - 매일경제
- [속보] 검찰, ‘돈봉투’ 송영길 출국금지…피의자 신분 전환 - 매일경제
- 이강인, 프로 첫 멀티골 폭발+2연속 MOM 대활약...3-1 역전승 견인 - MK스포츠