“언어모델 ‘올모’ 맘껏 베껴라” AI2, 공익·비영리 LLM 선도[AI 스탠더드, 한국이 만들자]

■ AI 스탠더드, 한국이 만들자
MS공동 창업자 故 폴 앨런 설립
사전학습 데이터 ‘돌마’도 공개

“맘껏 베껴라.”

앨런 인공지능연구소(AI2)의 과감한 개방성은 엔드투엔드(End-to-End) 개방형 언어모델 ‘올모’의 사전 학습용 데이터부터 인공지능(AI) 모델 테스트 데이터까지 남김없이 공개하는 자신감에서 엿보인다. 홈페이지에서 올모의 목표를 “세계 최고의 개방형 언어 모델을 (전 세계 과학 공동체와) 함께 구축하는 것”이라고 단언했다.

올모는 세계 3위의 친환경 슈퍼컴퓨터 ‘루미(LUMI)’에서 수력발전 에너지원과 그래픽처리장치(GPU) 자원을 가동해 700억 개의 파라미터(매개변수)를 돌린다. 오픈AI의 3세대 언어모델(LLM) ‘챗GPT 3.5’ 파라미터 1750억 개보다는 적지만 상당한 양이다.

올모의 궁극적 목표는 지구촌 AI 연구 공동체에서 누구나 LLM에 쉽게 접근해 자신이 직접 작업할 수 있는 오픈 모델을 제시하는 것이다. 데이터뿐 아니라 데이터를 생성하는 데 사용된 코드까지 공개해 따라 만들 수 있게 한다. AI 모델, 학습 코드·곡선, 평가 벤치마크 등 수치를 모두 투명하게 밝히고, 책임성 강화를 위해 윤리적·교육적 준수 사항도 공유해 함께 논의할 예정이다. 게다가 3조 개의 토큰으로 이뤄진 대규모 사전 학습용 데이터 세트인 ‘돌마’도 최근 대중에게 공개했다. 학습용 데이터를 모으고 정제하는 과정에 많은 비용이 소요되는 만큼 이 또한 과감한 결정이다.

AI2는 마이크로소프트(MS)의 공동 창업자 고 폴 앨런이 2014년 세운 비영리 AI 연구기관이다. 오픈AI와 함께 공익 AI를 표방하는 민간 연구소의 쌍벽으로 꼽힌다. 원래 명칭 ‘Allen Institute for Artificial Intelligence’를 축약해 ‘AIAI’, 즉 ‘AI2’란 약칭으로 표기한다. AI2는 AI의 최신 경향인 개방화를 이끄는 선두주자다. 또 다른 경향인 ‘가벼운 AI’, 즉 경량화는 스탠퍼드대의 ‘알파카’ 시리즈가 선도하고 있다. 초거대 AI의 중앙집권식 자원 낭비에 반대해 각 소비자가 보유한 저(低)사양의 단말기에서도 돌아가는 고성능 소형 AI를 만들려는 움직임을 말한다.

문화일보

IT/과학

“언어모델 ‘올모’ 맘껏 베껴라” AI2, 공익·비영리 LLM 선도[AI 스탠더드, 한국이 만들자]