구글·MS에 다 빼앗길라.. 정부, AI 학습용 데이터 대거 개방
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
과학기술정보통신부와 한국지능정보사회진흥원이 지난해 구축한 인공지능 학습용 데이터 세트 310종을 7월 말까지 'AI허브'를 통해 순차적으로 개방한다.
최근 오픈AI의 '챗GPT' 및 'GPT-4'와 구글의 '바드' 출시 등으로 생성형 인공지능(AI) 시장이 확대되며, 학습용 데이터 확보가 한층 중요해졌다는 판단 때문이다.
각국은 생성형 AI 고도화를 위해 학습용 디지털 데이터 확보에 사활을 걸고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
네이버·카카오 등 데이터 활용 가능
과학기술정보통신부와 한국지능정보사회진흥원이 지난해 구축한 인공지능 학습용 데이터 세트 310종을 7월 말까지 ‘AI허브’를 통해 순차적으로 개방한다. 최근 오픈AI의 ‘챗GPT’ 및 ‘GPT-4’와 구글의 ‘바드’ 출시 등으로 생성형 인공지능(AI) 시장이 확대되며, 학습용 데이터 확보가 한층 중요해졌다는 판단 때문이다.
과기정통부는 30일 데이터 건수로 15억 건에 해당하는 역대 최대 규모의 데이터를 AI허브를 통해 순차적으로 개방한다고 밝혔다.
이날부터 1차 개방되는 데이터는 고서(古書) 속 한자·한글의 광학인식(OCR) 데이터, 실내외 군중 특성 데이터, 소방대원 행동 모션 3차원(3D) 객체 데이터 등 자연어와 인공지능 비전 분야의 데이터 70종이다. AI허브에 공개되는 데이터는 개인정보 비식별화를 거쳐 개인정보보호법 침해 소지가 없도록 했다.
각국은 생성형 AI 고도화를 위해 학습용 디지털 데이터 확보에 사활을 걸고 있다. 특히 웹상에서 사용되는 언어의 과반이 영어인 만큼, 웹상 언어 점유율이 1%대에 불과한 한국어 기반의 데이터 확보는 쉽지 않은 상황이다. 한국의 네이버나 카카오와 같은 ‘K-빅테크’ 기업을 중심으로 개인정보보호법과 각종 규제가 생성형 AI 학습용 데이터 확보를 가로막고 있다는 주장도 제기된다.
일부 국가에서는 주요 빅테크의 무분별한 데이터 확보에 제동을 걸며 자국 기업 중심의 생성형 AI 생태계 구축에 힘쓰고 있는 모습도 보인다. 로이터 통신 등에 따르면 유럽연합(EU)은 오픈AI 등 생성형 AI 서비스 기업이 AI 학습에 사용한 원데이터의 저작권을 공개하는 방안을 추진 중이다. 생성형 AI 학습에 사용된 데이터에 저작권료를 지급할 경우 관련 생태계 구축 속도는 더뎌질 수밖에 없다.
엄열 과기정통부 인공지능정책관은 “기존의 라벨링 데이터 중심의 사업을 개편해 초거대 AI 학습에 필요한 대규모 비라벨링 데이터와 한 번에 여러 가지 유형을 학습시킬 수 있는 다중 임무형 라벨링 데이터 등 다양한 유형의 데이터를 확보할 예정”이라고 말했다.
양철민 기자 chopin@sedaily.comCopyright © 서울경제. 무단전재 및 재배포 금지.
- [넷플릭스 모니터] '성+인물'의 시선, 日 AV계는 긍정적인 면만 있나요?
- 韓여성만 골라 성폭행 과정 촬영까지 한 男…배심원 만장일치 평결은?
- '나 건달인데'…실내흡연 피해 호소에 달린 협박성 답변 '황당'
- 자식 만류에도 비닐하우스서 10여년 산 노부부…화마에 참변
- '돈 없는데 갈비탕 좀'…외상 부탁 20대女 주문내역 '황당'
- ''곱창김' 먹지 말고 당장 반품하세요'…인공감미료 초과 검출
- 상사의 반복되는 업무 보완 지시…괴롭힘 아니다?
- '멧돼지인 줄'…엽사 오인 사격에 '비바크' 하던 50대 사망
- 바지 내리고 계단에 앉아 '끙'…''큰일' 보신 분 찾습니다'
- 호화생활 자랑하던 '주식 여신' 알고보니 166억 사기꾼이었다