AI용 데이터 15억건 개방… 7월까지 역대 최대규모

정부, 올해도 SNS 대화 등 모집

챗GPT와 같은 국산 초거대 인공지능(AI) 개발 지원에 나선 정부가 AI 기술 개발과 서비스 확산에 필요한 학습용 데이터를 역대 최대 규모로 개방한다.

과학기술정보통신부는 한국지능정보사회진흥원과 함께 지난해 ‘인공지능 학습용 데이터 구축 사업’을 통해 구축한 학습용 데이터세트 310종을 오늘부터 7월 말까지 ‘AI허브(aihub.or.kr)’를 통해 순차적으로 개방한다고 30일 밝혔다. 이번에 310종 약 15억 건의 데이터 개방을 완료하면 이용자들은 총 691종, 약 26억 건의 데이터를 AI 기술 개발 등에 활용할 수 있게 된다.

올해에도 AI 학습용 데이터 구축을 위한 콘텐츠를 모집한다. 한국어 소셜네트워크서비스(SNS) 대화나 동화, 아동·청소년 상담, 고령자의 근현대 경험 기반 구술 데이터 등 다양한 콘텐츠가 수집 대상에 포함됐다.

가령 SNS 대화 데이터의 경우에 “밥 뭐 먹었어? 라면 먹었어”라는 대화보다는 “○○님이 어제 라방에서 먹은 불닭마라면 해 먹었는데 진짜 킹정”처럼 신조어, 축약어 등 SNS의 특성을 보여줄 수 있는 내용이 더 선호된다. 60대 이상 고령자가 구술한 음성 데이터 10만 건 이상도 구축 대상에 포함됐다.

그간 AI 데이터 부족 문제는 국내 초거대 AI 환경 조성에 걸림돌로 꼽혔다. 정부는 국가 차원에서 고품질 대규모 학습용 데이터를 구축하고 이를 개방해 AI 강국으로 거듭난다는 방침이다.

남혜정 기자 namduck2@donga.com

동아일보

IT/과학

AI용 데이터 15억건 개방… 7월까지 역대 최대규모