[짚어봅시다] ‘프롬 스크래치’ 논란 일파만파… 과열되는 ‘소버린AI’ 경쟁

업스테이지 이어 네이버도 중국모델 베끼기 의혹

배경훈 부총리 겸 과학기술정보통신부 장관, 임문영 국가인공지능전략위원회 부위원장, 하정우 AI미래기획수석비서관 등이 30일 오후 서울 강남구 코엑스에서 열린 ‘독자 AI 파운데이션 모델’ 프로젝트 1차 발표회에서 기념촬영을 하고 있다. 연합뉴스

정부가 글로벌 수준의 소버린 인공지능(AI) 모델 개발을 목표로 추진 중인 ‘독자 AI 파운데이션 모델’ 프로젝트가 시끌시끌하다. 중국 기업의 오픈모델을 부분적으로 베꼈다는 논란이 참여기업들 사이에 번지고 있다. 모든 개발 과정을 독자적으로 수행하는 ‘프롬 스크래치’ 요건을 어겼다는 것이다. 정부가 제시한 기준 자체가 불명확했다는 지적도 나온다.

6일 AI 업계에 따르면 네이버클라우드의 하이퍼클로바X 시드 32B 싱크 모델이 중국 알리바바의 큐웬 2.4 모델과 비전 인코더 웨이트(가중치)의 코사인 유사도 및 피어슨 상관계수가 높다는 주장이 나왔다. 앞서 업스테이지의 솔라 오픈이 중국모델(GLM)의 가중치와 학습코드를 가져와 미세조정(파인튜닝)했다는 누명이 공개검증으로 해소되자 이번엔 네이버 쪽으로 불똥이 튀었다.

네이버클라우드는 중국 오픈소스를 가져다 쓴 점은 인정하고 “글로벌 기술 생태계와의 호환성 및 전체 시스템의 효율적 최적화를 고려해, 검증된 외부 인코더를 전략적으로 채택했다”고 해명했다. 이미 독자적 비전 기술력을 보유한 상태라 이 같은 조치는 “이미 표준화된 고성능 모듈을 활용해 전체 모델의 완성도와 안정성을 높이기 위한 고도의 엔지니어링 판단”이란 설명이다.

당초 프로젝트의 제안요청서(RFP)는 해외모델 미세조정 등으로 개발한 파생형 모델이 아닌, 모델의 설계부터 사전학습 과정 등을 수행한 국산모델의 개발을 요건으로 명시했다. 다른 모델에 대한 라이선싱 이슈 등이 없도록 프롬 스크래치로 개발돼야 한다는 것이다.

한 AI 업계 관계자는 “프롬 스크래치를 학습 데이터 위주로 논하기도 하지만, 이번엔 설계부터 독자적으로 하게 돼 있다”며 “이런 기준이면 다른 4개 정예팀 모델들도 자세히 뜯어볼 경우 (네이버와) 마찬가지로 베끼기 논란에 빠질 가능성이 작지 않다”고 지적했다. 그러면서 “프로젝트 자체가 안고 있는 한계다. 단기간에 만들어내야 하니 오픈소스 활용은 물론이고 타 모델 벤치마킹도 필요하게 되고, 독자적이고 창의적인 시도도 힘든 것”이라며 “다들 유사한 구조와 기능에 각자 학습만 좀 더 시키는 게 기존 모델 활용에 비해 얼마나 유의미할지 의문”이라고 비판했다.

프롬 스크래치 기준이 모호하다는 목소리도 나온다. 오픈소스 활용은 소프트웨어(SW) 개발에서 일반적이고 AI 모델 또한 마찬가지기 때문이다. 네이버클라우드 측도 “알리바바의 큐웬2-오디오는 오픈AI의 음성인식 기술(위스퍼)을, 큐웬3-옴니는 구글의 이미지 인식 기술(시그립2) 기반으로 구축됐다”고 예를 들었다. 무빙 타깃 방식으로 목표를 높여가는 프로젝트 특성상 요건 구체화가 외려 발목 잡을 우려도 있다.

결국 프롬스크래치 기준에 대한 공감대를 토대로 5개 모델이 독자성과 통제권을 얼마나 지니느냐가 이번 1차 심사에서 주요 잣대로 작용할 전망이다. 국방·안보 분야와 같이 소버린 AI를 가장 필요로 하는 곳에 제대로 쓰이려면 더욱 요구되는 역량이기도 하다. 경쟁이 과열될 조짐도 보이는 가운데, 1차 심사 결과는 오는 15일쯤 발표될 것으로 점쳐진다.

한 AI 학계 관계자는 “오픈소스 관련해 명확한 지침이 없었다는 점에서 이미 예견된 논란이다. 그런데 모든 것을 전부 자체개발하는 게 효과적·효율적이라고 보지도 않는다”면서 “최근 발표회에서 기업들은 어떤 차별화된 기술 경쟁력이 있는지 거의 공개하지 않았다. 맹목적으로 모델 확보에만 매달릴 게 아니라 우리가 진짜 하고 싶은 게 뭔지 되돌아볼 시점”이라고 짚었다.

팽동현 기자 dhp@dt.co.kr

디지털타임스

IT/과학

[짚어봅시다] ‘프롬 스크래치’ 논란 일파만파… 과열되는 ‘소버린AI’ 경쟁