AI용 데이터 15억건 개방… 7월까지 역대 최대규모
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
챗GPT와 같은 국산 초거대 인공지능(AI) 개발 지원에 나선 정부가 AI 기술 개발과 서비스 확산에 필요한 학습용 데이터를 역대 최대 규모로 개방한다.
과학기술정보통신부는 한국지능정보사회진흥원과 함께 지난해 '인공지능 학습용 데이터 구축 사업'을 통해 구축한 학습용 데이터세트 310종을 오늘부터 7월 말까지 'AI허브(aihub.or.kr)'를 통해 순차적으로 개방한다고 30일 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
챗GPT와 같은 국산 초거대 인공지능(AI) 개발 지원에 나선 정부가 AI 기술 개발과 서비스 확산에 필요한 학습용 데이터를 역대 최대 규모로 개방한다.
과학기술정보통신부는 한국지능정보사회진흥원과 함께 지난해 ‘인공지능 학습용 데이터 구축 사업’을 통해 구축한 학습용 데이터세트 310종을 오늘부터 7월 말까지 ‘AI허브(aihub.or.kr)’를 통해 순차적으로 개방한다고 30일 밝혔다. 이번에 310종 약 15억 건의 데이터 개방을 완료하면 이용자들은 총 691종, 약 26억 건의 데이터를 AI 기술 개발 등에 활용할 수 있게 된다.
올해에도 AI 학습용 데이터 구축을 위한 콘텐츠를 모집한다. 한국어 소셜네트워크서비스(SNS) 대화나 동화, 아동·청소년 상담, 고령자의 근현대 경험 기반 구술 데이터 등 다양한 콘텐츠가 수집 대상에 포함됐다.
가령 SNS 대화 데이터의 경우에 “밥 뭐 먹었어? 라면 먹었어”라는 대화보다는 “○○님이 어제 라방에서 먹은 불닭마라면 해 먹었는데 진짜 킹정”처럼 신조어, 축약어 등 SNS의 특성을 보여줄 수 있는 내용이 더 선호된다. 60대 이상 고령자가 구술한 음성 데이터 10만 건 이상도 구축 대상에 포함됐다.
그간 AI 데이터 부족 문제는 국내 초거대 AI 환경 조성에 걸림돌로 꼽혔다. 정부는 국가 차원에서 고품질 대규모 학습용 데이터를 구축하고 이를 개방해 AI 강국으로 거듭난다는 방침이다.
남혜정 기자 namduck2@donga.com
Copyright © 동아일보. 무단전재 및 재배포 금지.
- 웨스팅하우스 CEO “韓원전, 폴란드에 지어질 일 없다”…한수원 즉각 반박
- 北, 핵 선제타격 ‘대형도발’ 위협…美정찰기 동해 출격
- “IRA·반도체법 잘해 보자”… 이젠 구체적 실행으로 뒷받침해야[사설]
- 은행도 카드도 저축銀도 연체율 급등… 선제대응 나서라[사설]
- 기시다 방한 추진… ‘과거사 성의’ 보여야 미래로 갈 수 있다[사설]
- 금융위, ‘SG사태’ 제보 받고도 늑장대응…뒤늦게 대주주 의혹 조사
- 박지원 ‘尹-바이든 듀엣 조율’ 주장에…대통령실 “반국가적 작태”
- 충북 옥천서 규모 3.1 지진…올해 육상지진 중 가장 큰 규모
- 55년간 1만4천쌍에 결혼식… 무료라도 싸구려로 하지 않았다[횡설수설/서정보]
- ‘다른 이의 콘텐츠 공짜로 끌어쓰기’가 너무 쉽다[광화문에서/김현지]