AI용 데이터 15억건 개방… 7월까지 역대 최대규모

남혜정 기자 2023. 5. 1. 03:06
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

챗GPT와 같은 국산 초거대 인공지능(AI) 개발 지원에 나선 정부가 AI 기술 개발과 서비스 확산에 필요한 학습용 데이터를 역대 최대 규모로 개방한다.

과학기술정보통신부는 한국지능정보사회진흥원과 함께 지난해 '인공지능 학습용 데이터 구축 사업'을 통해 구축한 학습용 데이터세트 310종을 오늘부터 7월 말까지 'AI허브(aihub.or.kr)'를 통해 순차적으로 개방한다고 30일 밝혔다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

정부, 올해도 SNS 대화 등 모집

챗GPT와 같은 국산 초거대 인공지능(AI) 개발 지원에 나선 정부가 AI 기술 개발과 서비스 확산에 필요한 학습용 데이터를 역대 최대 규모로 개방한다.

과학기술정보통신부는 한국지능정보사회진흥원과 함께 지난해 ‘인공지능 학습용 데이터 구축 사업’을 통해 구축한 학습용 데이터세트 310종을 오늘부터 7월 말까지 ‘AI허브(aihub.or.kr)’를 통해 순차적으로 개방한다고 30일 밝혔다. 이번에 310종 약 15억 건의 데이터 개방을 완료하면 이용자들은 총 691종, 약 26억 건의 데이터를 AI 기술 개발 등에 활용할 수 있게 된다.

올해에도 AI 학습용 데이터 구축을 위한 콘텐츠를 모집한다. 한국어 소셜네트워크서비스(SNS) 대화나 동화, 아동·청소년 상담, 고령자의 근현대 경험 기반 구술 데이터 등 다양한 콘텐츠가 수집 대상에 포함됐다.

가령 SNS 대화 데이터의 경우에 “밥 뭐 먹었어? 라면 먹었어”라는 대화보다는 “○○님이 어제 라방에서 먹은 불닭마라면 해 먹었는데 진짜 킹정”처럼 신조어, 축약어 등 SNS의 특성을 보여줄 수 있는 내용이 더 선호된다. 60대 이상 고령자가 구술한 음성 데이터 10만 건 이상도 구축 대상에 포함됐다.

그간 AI 데이터 부족 문제는 국내 초거대 AI 환경 조성에 걸림돌로 꼽혔다. 정부는 국가 차원에서 고품질 대규모 학습용 데이터를 구축하고 이를 개방해 AI 강국으로 거듭난다는 방침이다.

남혜정 기자 namduck2@donga.com

Copyright © 동아일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?