인공지능 스타트업들 “학습 데이터, 아직 턱없이 부족”

정유경 기자 2024. 5. 28. 18:20
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

과학기술정보통신부는 28일 스타트업 기업들과 함께하는 '데이터 중심 에이아이(AI) 가속화 밋업 시리즈' 첫 행사를 개최했다.

초거대·생성형 인공지능 시대에 알맞는 데이터 정책을 기업 및 개발자들과 함께 토의하고 만들어 가기 위한 자리다.

김 대표는 "앞으로 자체 (생성형 인공지능) 플랫폼 엔진 보유가 기업 경쟁력 뿐 아니라 국가경쟁력도 좌우하게 될 것"이라며 "일본 데이터로 학습한 인공지능(AI)은 '독도는 일본 땅'이라고 할 것"이라고 말했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

과기정통부, ‘AI 가속화 밋업’ 첫 개최
과학기술정보통신부는 28일 서울 중구 커뮤니티하우스 ‘마실’에서 스타트업 기업들과 함께하는 ‘데이터 중심 에이아이(AI) 가속화 밋업 시리즈’ 첫 행사를 개최했다. 사진 정유경 기자

“초거대 언어모델(LLM) 구축을 하려면 학습 데이터도 커진다. 한 국내 대기업의 경우 한글로 된 학습 데이터 5000억개로는 부족해 해외 데이터 5000억개를 추가 확보해 학습시켰다고 한다. (국내 기업에게는) 아직 턱없이 데이터가 부족하다.” (포티투마루 김동환 대표)

과학기술정보통신부는 28일 스타트업 기업들과 함께하는 ‘데이터 중심 에이아이(AI) 가속화 밋업 시리즈’ 첫 행사를 개최했다. 초거대·생성형 인공지능 시대에 알맞는 데이터 정책을 기업 및 개발자들과 함께 토의하고 만들어 가기 위한 자리다. 이날 첫 행사에선 김동환 대표가 ‘데이터와 인공지능(AI) 이야기’ 기조연설을 맡아 최근 인공지능 기술 발전 동향과 데이터의 중요성을 설명했다.

김 대표는 현재 생성형 인공지능 모델이 “장기적으로는 경량화 모델(sLM) 개발이 이뤄지고 있으나, 데이터는 더욱 전문화되고 학습량도 늘어나는 방향으로 가고 있다”며 “내년까진 멀티 모달(텍스트 외에도 이미지, 영상, 음성 등 여러 가지 유형의 데이터 또는 정보를 함께 활용하여 인공 지능 시스템을 구축하는 방식) 쪽으로 고도화되고 데이터 학습 경쟁이 치열할텐데 안타깝게도 국내는 멀티모달 쪽 학습 데이터가 많지 않다”고 지적했다. 또 ‘인공지능 주권’의 중요성도 강조했다. 김 대표는 “앞으로 자체 (생성형 인공지능) 플랫폼 엔진 보유가 기업 경쟁력 뿐 아니라 국가경쟁력도 좌우하게 될 것”이라며 “일본 데이터로 학습한 인공지능(AI)은 ‘독도는 일본 땅’이라고 할 것”이라고 말했다.

이어 2부에서는 아이티(IT) 유튜버 ‘조코딩’이 사회를 맡고 구름 빅밸류 대표, 김세엽 셀렉트스타 대표, 이현동 슈퍼브에이아이 부대표, 황현지 스모어톡 대표가 현업에서 경험하는 인공지능 서비스 현황과 앞으로 어떤 정책이 필요한 지에 대해 토의했다. 이들은 “공공 데이터의 피드백이나 개선 조치가 보다 신속했으면 한다”(구름 빅밸류 대표) “저작권 문제가 없거나, 있더라도 허가를 받을 수 있는 적법한 데이터가 필요하다”(황현지 스모어톡 대표) “학습용으로 쓸 수 있는 업무 문서 데이터를 제공받을 수 있다면 좋을 것 같다”(김세엽 셀렉트스타 대표) “공공기관이 인공지능 도입의 실제 성공사례를 만들어 주면 기업들도 따라올 수 있을 것”(이현동 슈퍼브에이아이 부대표) 등 다양한 의견을 현장에서 내놨다.

행사에 참석한 김경만 과기정통부 인공지능기반정책관은 “인공지능 분야 경쟁 우위를 차지하기 위해서는 기술의 발전만큼이나 필요한 데이터가 잘 준비돼 있는 것이 중요하다”며 “이번 행사를 통해 인공지능 경쟁력 강화에 필요한 데이터를 파악하고 잘 준비될 수 있도록 적극 지원할 계획”이라고 밝혔다.

정유경 기자 edge@hani.co.kr

Copyright © 한겨레신문사 All Rights Reserved. 무단 전재, 재배포, AI 학습 및 활용 금지

이 기사에 대해 어떻게 생각하시나요?