정부, AI 학습용 데이터 15억건 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
정부가 인공지능(AI) 학습용 데이터를 역대 최대 규모로 공개한다.
과학기술정보통신부는 지난해 구축한 AI 학습용 데이터 세트 310종을 오는 7월 말까지 'AI 허브' 사이트를 통해 순차 개방한다고 30일 발표했다.
엄열 과기정통부 AI정책관은 "기존 라벨링 데이터 중심에서 벗어나 초거대 AI 학습에 필요한 대규모 비(非) 라벨링 데이터와 다중 임무형 라벨링 데이터 등 여러 종류의 데이터를 확보할 것"이라고 말했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
"초거대 AI 데이터 등 다양화"
정부가 인공지능(AI) 학습용 데이터를 역대 최대 규모로 공개한다.
과학기술정보통신부는 지난해 구축한 AI 학습용 데이터 세트 310종을 오는 7월 말까지 ‘AI 허브’ 사이트를 통해 순차 개방한다고 30일 발표했다.
AI 학습용 데이터는 AI 모델을 만들고 성능을 향상하는 데 필수적이다. 과기정통부는 기업, 연구자, 개발자 등이 쓸 수 있도록 2020년부터 데이터를 구축해왔다. 지금까지 개방된 데이터는 한국어, 이미지·영상, 헬스케어 등 6대 분야 381종, 11억 건에 이른다.
이번에 새롭게 공개하는 데이터 건수는 약 15억 건으로 지금까지 내놓은 데이터 규모를 뛰어넘는다. 지난해부터 데이터 구축 분야를 제조, 로보틱스, 교육, 금융, 스포츠 등 14개로 늘리면서 데이터 규모가 증가했다.
이날부터 1차 개방하는 데이터는 고서(古書) 속 한자·한글의 광학 인식(OCR) 데이터, 실내외 군중 특성 데이터 등 자연어와 AI 비전 분야의 데이터 70종이다. 과기정통부는 7월 말까지 310종 전체를 개방할 방침이다.
엄열 과기정통부 AI정책관은 “기존 라벨링 데이터 중심에서 벗어나 초거대 AI 학습에 필요한 대규모 비(非) 라벨링 데이터와 다중 임무형 라벨링 데이터 등 여러 종류의 데이터를 확보할 것”이라고 말했다.
이승우 기자 leeswoo@hankyung.com
▶ 해외투자 '한경 글로벌마켓'과 함께하세요
▶ 한국경제신문과 WSJ, 모바일한경으로 보세요
Copyright © 한국경제. 무단전재 및 재배포 금지.
- 이서진이 왜 거기서 나와?…尹 대통령 "어떻게 오셨냐"
- "공부할 아이들 없으니 결국엔…" 업계 1위가 꺼낸 파격 대책
- "한국인 직원 찾아요" 해외서 러브콜…'이 직업'에 몰렸다 [곽용희의 인사노무노트]
- "전세사기 공포에 월세 40만원 비싼 집 갑니다" 세입자 한숨
- '백종원 도시락' 인기 끌더니…이번엔 '2900원' 승부수 [송영찬의 신통유통]
- '미담 제조기' 임영웅, 군대 후임이 전한 미담 화제
- 서세원 유해 열흘 만에 고국으로…"피 토하는 심정으로 현지 화장"
- 쉰 목소리에 검사했다가 '깜짝'…이혜영 "2주간 말 못 해" [건강!톡]
- 신동엽, AV배우 만났다가…'동물농장' 이어 '놀토'까지 하차 요구
- "10분이 30초 같았어요"…1억4000만원 들인 공연 뭐길래