스태빌리티 AI CEO가 그만 두고 ‘탈중앙화 AI’ 회사 만든 이유
"AI에서 데이터 거버넌스가 가장 중요"
"오픈소스AI는 데이터 통제 못해"
“블록체인, AI 투명성 높이는데 유용"
“거대AI보다는 로컬AI 상호작용이 바람직”
[이데일리 김현아 기자]“AI가 인간수준으로 진화하는데, 데이터 구조가 제대로 잡히지 않아 안전성을 확보하기 어렵다는 생각이 들었습니다. 베이스 모델(LLM·거대언어모델)을 훈련할 수 있는 권한이 몇 개 국가에만 제한되고, 접근 역시 제한돼 불합리하죠.”
“AI거버넌스에 대한 고민으로 퇴사”
에마드 모스타크 전 스태빌리티 AI CEO가 12일 과학기술정보통신부가 주최한 ‘글로벌 AI 안전 컨퍼런스’에서 인공지능(AI)에 대한 권력 집중 문제를 지적하면서 ‘탈중앙화 AI’가 필요하다고 역설했다.
그는 “이러한 문제를 해결하기 위해 탈중앙화된 접근이 필요하며, 가능한 많은 사람이 참여하여 해결할 수 있을 것”이라고 말했다.
최근 스태빌리티 AI를 떠난 이유에 대해서는 “한두 달 전에 내가 그만뒀다. 지난 몇 년 동안 AI에서 거버넌스가 가장 중요하다는 것을 느꼈다”고 답했다.
이어 “그래서 탈중앙화된 그런 접근을 통해 AI가 최대한 많은 사람에게 접근될 수 있기를 바란다”면서 “제가 하려는 벤처도 AI의 탈중앙화, 더 분산된 접근을 위해 노력하는 기관으로 봐 달라. 교육 등 버티컬 쪽에서도 활약할 수 있길 기대한다”고 언급했다.
스태빌리티 AI는 2019년 설립된 영국 스타트업이다. 이 회사가 만든 ‘스테이블 디퓨전’은 오픈AI의 ‘달리’와 함께 이미지 생성 AI로 유명하다.
그는 스태빌리티 AI에서 나와 몇 주 안에 법인을 설립할 예정이다. 에마드 모스타크 전 스태빌리티 AI CEO와의 대담은 황민영 셀렉트스타 부대표가 진행했다.
“오픈소스 AI는 데이터 통제 못해”
모스타크는 탈 중앙화된 AI는 오픈소스 AI와 다르다고 했다. 오픈소스 AI는 딥러닝 모델의 소스코드 뿐아니라 학습용 데이터와 모델, 모델 튜닝을 위한 툴, 그리고 논문 등 각종 자료 등을 공개하는 것이다.
그는 “오픈 소스는 그냥 AI의 배포하는 것”이라면서 “그런데 그 모델에 들어가는 데이터는 누가 통제를 하는가?”라고 되물었다.
그러면서 거대언어모델(LLM)의 원료가 되는 데이터셋을 만드는 과정부터 치우침이 불가피하다고 했다.
모스타크는 “엔트로픽 같은 경우를 보더라도 언어가 충분치 않으면 파인튜닝(미세조정)자체가 되지 않는 부분이 있는데, 대부분 영어에 기반해 이뤄진다”며 “이런 기본 구조의 거버넌스도 문제고, 코디네이션도 문제”라고 설명했다.
이어 “대부분의 LLM들이 영어에 기반해 이뤄지니 다양한 국가들이 프로토콜(규약)에 참여하기 어렵고, 결과물에 대한 제어가 쉽지도 않다”고 했다.
“국가별 자주적인 AI 필요”
그는 “오픈소스 자체는 괜찮지만, 미얀마나 인도네시아 같은 나라에선 LLM에 참여할 기회가 잘 주어지지 않는 게 현실”이라며 “어떤 프로토콜과 표준을 세울까에 다양한 국가들이 참여할 수 있게 하는 데 집중하려 한다”고 힘줘 말했다.
이어 “국가 언어에 접목된 LLM이 있어야 한다고 생각하고, 자국법에 그런 적용을 받을 수 있는 규제도 만들어져야 된다고 생각한다”면서 “그래서 이런 부분들을 더 다뤄보려고 한다”고 했다.
탈중앙화된 의사결정을 하게 되면 AI의 안전성은 확보될까.
“블록체인, AI 투명성 높이는데 유용”
모스타크는 “AI 개발이나 서비스에 있어 어떤 교육 과정(커리큘럼)과 표준이 들어 있는지 모든 사람들이 파악할 수 있어야 하는데 지금은 그렇지 못하다”고 했다.
이어 AI의 투명성을 높이는데 블록체인 기술이 유용하다고 했다. 블록체인이란 네트워크 내에서 정보를 투명하게 공유할 수 있도록 하는 데이터베이스 구조다. 트랜잭션을 기록하고 추적하는 절차를 가능하게 만든다.
모스타크는 “블록체인이나 웹3를 보면 사람이 투표해 분산 원장을 만들지 않느냐. 마찬가지로 투표권을 가진 사람들이 AI의 투명성을 검증할 수 있을 것”이라며 “AI가 아이라면 유튜브 콘텐츠를 보면서 훈련시킬 수 없듯이 표준이 필요하다. 표준을 도입하는데 블록체인 기술이 유용하다고 생각한다”고 부연했다.
그는 “AI는 데이터의 질에 따라 결과물이 달라지고 안전성도 거의 다 결정된다고 볼 수 있다. 어떤 데이터가 지금 모델들에 들어가고 있는가에 대한 투명성이 확보가 돼야 된다. 데이터가 제대로 된 각각의 주체를 대표하고 있는지도 확인해야 된다”고 했다.
“거대AI보다는 로컬AI 상호작용이 바람직”
모스타크는 오픈AI나 구글, 메타 등이 주도하는 거대언어모델(LLM)이나 범용인공지능(AGI)보다는 작은 모델(SLM)의 AI들이 상호작용하는 게 바람직하다고 밝혔다.
그는 “거대한 AI 시스템이 뭐든지 다 할 수 있는 범용인공지능(AGI)보다는 작은 모델들이 서로 인터렉션하는 게 바람직하다. 그래야 각국, 로컬에서의 콘트롤이 더 강해진다”고 말했다.
하지만 AI 데이터의 공평한 거버넌스를 확보하려면 아주 많은 자금이 필요할텐 데, 모스타크가 만들려는 스타트업이 할 수 있을까.
이에 대해 모스타크는 “이게 바로 탈중앙화된 AI의 정말 근본적인 질문이 아닐까 라는 생각이 든다”면서 “하지만 안전한 거버넌스에 더 신경 쓸 수 있는 장점도 있다. 저도 지금 한 3천억 불 정도의 자금으로 제대로 된 일을 하려고 하지 않느냐? 사회 정의를 위해 투자할 의지가 있는 사람들이 있다”고 답했다.
그러면서 “저도 99% 정도의 웹3(블록체인)는 가짜라고 보지만 1%는 정말 가치 있게 만들어지고 있다”면서 “표준이 있다면 더 좋겠지만 적어도 데이터셋에 대한 검증을 할 수 있고 결정할 수 있는 환경은 구축돼야 한다. AI 모델의 투명성 확보가 안전성을 지키는 가장 좋은 방법”이라고 했다.
김현아 (chaos@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.
- 중동전쟁 고조에 유가·금값 '들썩', 비트코인 '털썩'
- “목사로서 자격 있느냐”…선교지서 아내 살해 후 암매장한 60대 [그해 오늘]
- 삼성, 출시 2년 넘은 갤럭시S22도 '갤럭시 AI' 지원
- 저 차가 카니발이라고? '나혼산' 키 캠핑카 손민수 해볼까[누구차]
- 배 타고 출근 실화? '한강 리버버스' 10월에 띄운다
- ‘25억 자산’ 독신女, 돌연사하면 재산 어떡하죠?[양친소]
- 혜리의 쏠쏠한 빌딩 투자법…류준열도 70억 차익 [누구집]
- '동치미' 선우은숙 "유영재 사실혼 기사로 알아" 심경 고백…시청률 3.259%
- 故 박보람 소속사 "악의적 가짜뉴스, 법적 대응할 것"
- [UFC300]'최강 타격가' 페레이라, 펀치 한 방에 KO승..."헤비급 도전하겠다"