"토종AI 인데 미국 데이터로 배워"

<앵커> 이렇게 국내 생성형 AI 산업이 발을 떼고는 있지만, 글로벌 기업들과 비교할 때 성장의 속도는 여전히 더딘 모습입니다. 데이터 부족 문제를 비롯해 한계점들이 많기 때문인데, 정부가 첫 AI 경쟁력 강화 전략을 오늘 공개했습니다. 산업부 이근형 기자와 자세히 알아봅니다. 이 기자, 앞서 살펴본 AI 음악생성 기술, 가격경쟁력을 앞세우면서 상당한 성장이 기대가 됩니다. 그런데 실제 이런 생성형 AI 기업들, 속을 들여다보면 고충이 상당히 많다고 하는데, 대표적으로 카카오의 AI연구조직, 브레인이 한국 데이터가 아니라 미국 데이터를 기반으로 AI를 학습시키고 있다고요?

<기자> 미국의 커먼크롤이라는 오픈소스 데이터 연합체가 있습니다. 구글을 비롯한 여러 빅테크 기업들이 AI 개발에 이 커먼크롤을 활용하고 있거든요. 카카오브레인 역시 커먼크롤을 이용해서 AI 기본데이터를 학습 시키고 있는데, 물론 추가로 일부 국내 공개 데이터를 넣고, 국내 사정에 맞게 파인튜닝(Fine-tuning)하는 작업을 거치기는 합니다. 하지만 국내 데이터를 기본으로 할 수 없다는 점은 아무래도 아쉬운 부분입니다.

<앵커> 우리나라도 데이터 양이 적지는 않을텐데, 어째서 미국 데이터를 쓰는 겁니까?

<기자> 커먼크롤은 2007년부터 15년 넘게 오픈소스 데이터를 모아 왔지만, 우리는 그 정도 규모로 데이터를 보유한 업체가 없기 때문입니다. 지금부터라도 데이터를 모아야 하는데, 문제는 법적 분쟁을 피하려면 공개된 데이터만 써야 한다는 겁니다. 공개된 데이터 자체가 적은데다, 공개된 건지 아닌지 구분도 쉽지 않아서 어려움이 커보입니다.

<앵커> 당연히 학습시키는 데이터가 많을수록 AI의 성능도 좋아질텐데, 국내에선 모을 수 있는 데이터가 적다라고 한다면 경쟁력 측면에서 문제가 되겠습니다. 아마 대부분 국내 개발사들이 사정이 비슷할 것 같은데, 네이버도 그렇습니까?

<기자> 네이버는 오랫동안 포털 사업을 영위해 왔기 때문에 카카오 만큼은 아닙니다. 방대한 자체 데이터를 갖고 있고 그래서 한국어 역량도 챗GPT보다 6500배 뛰어나다고 강조하기도 했죠. 네이버의 하이퍼클로바는 50년 분량의 뉴스 콘텐츠를 익히고, 카페, 블로그, 지식인 같은 곳에서 데이터를 학습하기도 했는데, 하지만 이게 오히려 네이버의 잠재적 리스크가 되고 있습니다. 품질은 높은 반면, 데이터 원작자들과의 분쟁이 빗발칠 수 있기 때문입니다.

<앵커> 정부가 오늘 초거대AI 경쟁력 강화 방안을 공개했습니다. 우리 AI 개발사들이 어려움을 겪고 있는 데이터 확보 문제에 대한 해법이 담겼다고요?

<기자> 그렇습니다. AI 학습용 데이터 구축 문제를 정부가 주도해서 해결하겠다는 게 핵심으로 보입니다. 올해 투입하는 예산 3,900억 가운데 1,200억원 이상이 이렇게 학습용 데이터 구축에 들어가고, 앞으로 매년 데이터 확보에 예산이 투여될 예정입니다. 현재 네이버, 카카오나, LG, KT 같은 기업들이 초거대AI를 개발하고 있지만, AI의 하드웨어 성능을 의미하는 파라미터 부분은 벌써부터 글로벌 빅테크에 밀린다는 평가가 나옵니다. 결국 범용성보다는 한국에 특화되거나, 전문화된 AI를 만들어내는 게 경쟁력이 될 수밖에 없는데, 이러자면 국내 독자 데이터를 확보하는 것, 무엇보다 중요한 과제가 아닐 수 없습니다.

또 정부의 이번 안에서는 앞서 리포트에서 보셨던, AI음원 만드는 주스 같은 기업들을 많이 육성하겠다는 내용도 담겼습니다. 이런 기업들을 우리가 서비스형 소프트웨어(SaaS) 기업이라고 하는데, 2026년까지 1만개를 키우겠다는 게 정부 전략입니다. 다만 이번에 투입한다는 4천억이라는 예산이 과연 충분하냐는 의문입니다. 비영어권을 노리겠다. 전문분야 AI 세계 1위를 노린다. 라고 하는데, 일본, 중국 같은 막강한 경쟁상대를 이겨내기 위해서는 좀 더 과감한 투자가 필요해 보입니다.

<기자> 맞습니다. 이 문제와 관련해서 오늘 정부는 제도를 정비하겠다 정도로 짧게 설명했는데요. 이미 2016년부터 문체부와 지재권위원회 주도로 논의가 계속 이어오고는 있습니다. 다만 산업계와 권리자 단체들 사이에 이견이 워낙 심하다 보니까 속도를 내지는 못하는 상황입니다. 현재까지 유력하게 거론되는 건 국회 도종환 의원이 대표 발의한 법안(저작권법 전부개정안) 정도가 있는데요. 'AI 학습을 시킬 때는 이런이런 경우를 제외하면 저작물을 사용해도 된다' 같이 경계선을 명확히 긋는 내용이 담겨 있습니다. 그밖에 또 어떤 기준이 필요하냐. 전문가 통해서 직접 들어봤습니다.

[허인 / 한국지식재산권연구원 법제연구실장 : 원저작자의 저작물을 활용하지 않고 좋은 콘텐츠가 나올 수 있다고는 생각하지 않습니다. 중요한건 원 제작자한테 어떻게 이익분배를 하느냐 이게 중요할 것 같아요. AI 창작물의 권리등록, 인증제도 이런걸 구축을 잘해서, 저작자에게 이익분배가 되는 기술적 방안에 대해서도 검토할 필요가 있다고 생각하고요.]

<앵커> AI산업 경쟁력을 키우면서, 동시에 저작자의 권리도 지킬 수 있는 중간점을 잘 찾아야 겠습니다. 산업부 이근형 기자였습니다.

한국경제TV

경제

"토종AI 인데 미국 데이터로 배워"