생성AI 시대에 '인형 눈 붙이기'는 좀…데이터라벨링 전면수정
정부, 이르면 모레 AI 정책 발표…버티컬 생태계 지원책 담길 듯
(서울=연합뉴스) 조성미 기자 = 챗GPT 등장으로 상징되는 생성형 인공지능(AI) 기술이 정보기술(IT) 분야에 대변혁을 가져오면서 정부의 AI 정책을 포함한 디지털 산업 정책 전반에도 수정이 불가피해졌다.
대표적인 것이 지난 정부 '한국판 뉴딜' 사업의 하나인 디지털 뉴딜에서 시작한 데이터 라벨링 사업이다. 과학기술정보통신부는 이 사업을 생성 AI 시대에 맞춰 혁신하는 방안을 추진 중이다.
'디지털 시대 인형 눈알 붙이기' 별칭 붙었던 데이터 라벨링 사업
12일 정부의 디지털 뉴딜 정책 설명(2020년 발표)에 따르면 정부는 데이터 라벨링에 대해 "옷의 안쪽에 천 조각으로 상표나 품명, 취급 주의사항이 적혀있는 것처럼 화면 속 객체가 개인지, 고양이인지, 사람인지, 페이크 영상인지 구분해 인공지능이 인식할 수 있는 형태의 데이터로 컴퓨터에 입력하는 것"이라고 설명한다.
단순·반복 작업이어서 '인형 눈알 붙이기'라는 비유도 나왔지만, 당시 정부는 "인공지능도 사람처럼 지식을 축적하려면 양질의 정보가 필요하기 때문"이라고 데이터 라벨링의 필요성을 설명했다.
그러면서 "데이터를 수집, 입력, 정리하는 등의 작업에는 많은 인력 수작업이 필요해 일자리 창출로 연결될 것"이라고 전망했다.
하지만 3년이 지난 현재 데이터 라벨링 사업은 전면 재수정이 불가피해졌다. GPT 시리즈 등장 때문이다.
GPT 등장 전에 법률 전문 도서를 분석해 판결 해석 초거대 AI 서비스를 만들려고 했을 때 라벨이 붙은 데이터가 10만건이 필요했다. 하지만 지금은 1만건으로 필요 데이터양이 대폭 줄었다.
챗GPT 같은 인공 신경망을 사용한 생성형 AI는 '토큰'이라고 부르는 사전학습 대상이 된 데이터를 써서 정확도를 높였기 때문에 라벨링 데이터가 예전처럼 대량 필요하지 않게 된 영향이다.
과기정통부도 이를 인식하고 데이터 라벨링 사업을 생성 AI 시대에 맞게 변형하는 것을 검토 중이다.
지난달 말 공고된 올해 인공지능 학습용 데이터 구축 지원사업 예산은 2천188억원으로 확정됐지만 내년부터 규모가 축소되거나 현재 118종 데이터로 구성된 지원 과업 분야가 바뀔 가능성이 높은 것으로 관측된다.
다만, 데이터 라벨링 사업이 전면 폐기되는 것은 아니다.
생성 AI 시대에도 고품질(Fine Tuned) 데이터 라벨링을 통한 지도학습이 꼭 필요하기 때문이다.
과기정통부 관계자는 "지난해 말 챗GPT가 등장하기 전부터 데이터 라벨링 사업 개선에 대한 고민을 해왔고 최근 공고한 올해 사업에서도 가능한 범위에서 생성 AI에 맞게 사업 내용을 반영했다"며 "내년 데이터 라벨링 사업을 혁신하는 방안을 현재 내부 검토 중"이라고 말했다.
"한 달도 안 돼 바뀌는 AI 지형"…국가경쟁력 담보에 깊어지는 고민
생성 AI 파고가 국내 IT 업계를 덮치면서 오픈AI의 GPT 기술과 연동한 응용 서비스가 우후죽순으로 탄생하고 있는 가운데 정책 당국은 국내 AI 업계 지원 방향을 두고 장고 중이다.
최근 챗GPT에 외부 정보와 서비스를 불러와 사용할 수 있는 '플러그인'(plugin) 기능이 출시되면서 GPT와 연결(API)을 통해 AI 경쟁력을 확보하려는 국내 스타트업이 많아지며 고민이 더 깊어졌다는 후문이다.
스타트업 업계 일각에서는 "GPT 기술을 활용하는 것은 대세가 됐고 정부는 이를 위한 클라우드 비용을 지원해야 한다"는 요구가 나오는 상황이다.
하지만, GPT 활용이 대세가 되면 그동안 구축한 라벨링 데이터가 무용지물이 될 가능성뿐 아니라 국내에서 발생하는 데이터가 오픈AI로 흡수될 우려도 크다는 게 정부 고민이다. 해외 AI 거인 기업이 정책을 바꾸면 국내 업계가 타격을 받을 기술 종속 우려도 나온다.
AI 기반 일상대화 플랫폼 개발사 레플리 우종하 대표는 "스타트업 입장에서는 GPT 기술을 쓰지 않으면 다른 애플리케이션으로 고객을 뺏기는 상황이라 쓰지 않을 수 없다"면서 플러그인이 아닌 우리 앱만의 장점을 계발하는 것이 스타트업들의 고민이라고 전했다.
우 대표는 "오픈AI 역시 아직 초기여서 AI 시장을 장악할 수 있다고 정해지지 않았기 때문에 국내 거대 IT 기업도 도전해볼 만한 기술력이 있고 최소한 국내 시장은 지킬 수 있다고 본다"고 말했다.
국내 스타트업이라고 해서 모두 GPT 기술만 바라보는 것도 아니다. 레플리, 스캐터랩 등 대화 서비스 전용의 파운데이션 모델(근간이 되는 AI)을 개발하는 기업들을 정부가 적극 지원해 데이터 수집, AI 모델 개발, 서비스 단계로 이어지는 수직적(버티컬) 생태계를 구성해야 한다는 요구가 나오는 대목이다.
영상 AI 파운데이션 모델 개발사 트웰브랩스 정진우 COO(최고운영책임자)는 "오픈AI가 언제까지나 1등이라는 보장은 없다"며 "불확실성은 있지만 지금 시점에서 국내 AI 경쟁력을 놓아서는 안 된다"고 강조했다.
한컴프론티스 정종기 CTO(최고기술책임자)는 "오픈AI가 놓친 서비스 분야를 공략하는 전략을 쓰는 기업도 많이 필요하다"며 "다만 생성 AI 기술 개발은 네이버, 카카오, SKT, KT, LG전자와 같은 기존에 초거대 AI 모델 개발에 이미 뛰어든 대기업에서 적극적으로 나서야 한다"고 했다.
정부는 이르면 이번 주 안으로 생성 AI 시대에 걸맞은 인공지능 정책을 발표할 예정이다.
국내 파운데이션 모델 개발 지원과 더불어 특화된 분야의 AI 기술 강화(파인튜닝)를 통한 버티컬 생태계 지원 등이 담길 것으로 알려졌다.
csm@yna.co.kr
▶제보는 카톡 okjebo
Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지
- [사람들] 흑백 열풍…"수백만원짜리 코스라니? 셰프들은 냉정해야" | 연합뉴스
- 머스크, '정부효율부' 구인 나서…"IQ 높고 주80시간+ 무보수" | 연합뉴스
- "콜택시냐"…수험표까지 수송하는 경찰에 내부 와글와글 | 연합뉴스
- '마약 자수' 김나정, 필리핀서 귀국 직후 양성반응…경찰 조사(종합) | 연합뉴스
- 영동서 50대 남녀 흉기 찔려 숨져…"살해 뒤 극단선택한 듯"(종합) | 연합뉴스
- "우리집에 가자"…초등생 유인하려던 50대 '코드0' 발령해 체포 | 연합뉴스
- '앙투아네트 스캔들 연관설' 다이아 목걸이 67억원 낙찰 | 연합뉴스
- '동생살인' 60대, 법정서 부실수사 형사에 돌연 "감사합니다" | 연합뉴스
- [수능] 국어지문 링크에 尹퇴진집회 안내…경찰 "해킹아닌 도메인 구입"(종합2보) | 연합뉴스
- 이영애, '김여사 연관설' 제기 유튜버 화해거부…'끝까지 간다' | 연합뉴스