‘업스테이지, 中 AI 도용’ 주장한 고석현 "불필요한 혼란 야기" 사과

‘솔라오픈’ 공개검증회서 ‘프롬스크래치’ 입증

김성훈 업스테이지 대표가 지난 2일 자사 강남오피스에서 '솔라 오픈 현장 검증회'를 열고 독자 파운데이션 모델 관련해 제기된 도용 의혹에 대해 해명하고 있다. 업스테이지 제공

독자 인공지능(AI) 파운데이션 모델 정예팀 중 한 곳인 업스테이지가 중국 모델을 도용했다고 주장한 고석현 사이오닉AI 최고경영자(CEO)가 검증이 엄밀하지 못했다며 사과했다. 업스테이지가 중국 모델을 도용했다는 의혹 제기에 정면 반박하자 고 대표가 이를 수용한 모양새다. 의혹을 제기한 쪽이 사과함에 따라 논란은 불식된 모습이다.

정보통신기술(ICT) 업계에 따르면 지난 1일 고 CEO는 업스테이지가 이번 프로젝트로 내놓은 '솔라 오픈'이 중국기업 지푸AI의 'GLM-4.5-에어'에서 파생됐다는 글을 소셜미디어(SNS)에 올렸다. 가중치 구조를 분석해 파라미터 중 일부 레이어(LayerNorm)의 유사도를 지적하며 "국민 세금이 투입된 프로젝트에서 중국 모델을 복사해 미세조정한 결과물로 추정되는 모델이 제출된 건 상당히 큰 유감"이라고 밝혔다.

그는 다른 글에도 "비교 대상 두 모델의 토큰 임베딩이 사실상 동일한 분포를 갖고 있다고 확인했다"며 "솔라 오픈이 GLM-4.5-에어 모델의 학습코드 대부분을 그대로 가져와서 사용한 건 사실로 판단된다"고 말했다. 또한, "AI 연구과정에서 이런 접근 자체가 드문 일은 아니지만 이런 경우라면 처음부터 출처를 공개하는 게 보통"이라 부연했다.

이에 대해 다음날(2일) 업스테이지는 강력 대응 입장을 밝히면서 자사 강남오피스에서 공개 검증을 했다. 유튜브 생중계를 통해 2000여명이 동시 시청했다. 초기부터 자체 개발(프롬 스크래치)을 수행했다는 점을 입증하기 위해 모델 학습 로그와 체크포인트 등 주요 데이터를 공개했다.

먼저, 중국 모델(GLM)의 가중치를 재사용했다는 주장에 대해 통계적 착시라고 선을 그었다. 해당 구간은 모델 전체의 약 0.0004%에 불과하므로 99.9996%가 타 모델과 상이함을 보여주며, 의혹 제기에 쓰인 코사인 유사도 역시 벡터 방향만 비교하는 단순지표라 언어모델들끼리 비슷할 수밖에 없다고 짚었다. 정규화를 통한 모델 특성을 반영하는 피어슨 상관계수로 재분석한 결과, 패턴이 전혀 일치하지 않았다고 회사는 강조했다.

중국 모델의 토크나이저를 그대로 사용했다는 주장 또한 사실과 다르다고 반박했다. 동일 계열 토크나이저라면 통상 70% 이상 어휘가 중복되는데, 두 모델의 공통 어휘는 약 8만개(41%)로 파악됐다. 아울러 구조·코드가 유사하다는 지적에 대해선 주요 AI 개발사들이 학습용 코드를 외부 공개하지 않아 접근 자체가 제한된 점을 상기시켰고, 소스코드를 가져와 라이선스를 조작했다는 의혹에 대해선 서빙 호환성 차원에서 아파치 2.0 라이선스에 따라 허깅페이스의 오픈소스 코드베이스 일부를 활용했을 뿐이라 일축했다.

김성훈 업스테이지 대표는 "의견을 주고받는 건강한 토론은 환영하나, 이 같은 허위사실을 단정적으로 전달하는 행위는 AI 3강을 향해 최선을 다하고 있는 업스테이지와 정부 노력의 의미를 심각하게 훼손하는 것"이라며 사과를 촉구했다.

이에 고 대표는 자신의 SNS를 통해 "이번 문제제기는 건강한 토론과 검증 과정을 통해 대한민국을 대표할 수 있는 파운데이션 모델 생태계를 성숙시키는 데 미력하나마 이바지하고자 하는 문제의식에서 비롯됐다"며 "보다 엄밀하게 검증하지 않은 채 공개함으로써 불필요한 혼란과 논란을 야기한 점에 대해 진심으로 사과한다"고 전했다.

그는 "독자 파운데이션 모델 과제가 소버린AI 사업의 중요한 축 중 하나라고 생각한다. 그 과정에서 '독자성'을 판단하는 기준 또한 기술적·학술적 관점에서 사회적으로 합의 가능한 형태로 정교화될 필요가 있다"며 "한국 AI 생태계의 지속적인 발전을 위해 꾸준히 노력하며 건설적인 토론과 검증의 장을 형성하는 데 기여하겠다"고 덧붙였다.

팽동현 기자 dhp@dt.co.kr

디지털타임스

IT/과학

‘업스테이지, 中 AI 도용’ 주장한 고석현 "불필요한 혼란 야기" 사과