AI 챗봇 심심이, 초거대 대화 데이터 연구자들에게 공개

김현아 2022. 8. 1. 15:43
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

인공지능(AI) 챗봇 '심심이(대표 최정회)'가 인공지능/빅데이터 연구자를 위한 데이터 공개를 본격화한다.

최정회 심심이(주) 대표는 "대화형 인공지능(AI)이 최근 대세로 자리잡으면서 심심이 대화 데이터 수요가 점점 두터워지고 있는데, 특히 심심이는 국내외 학교, 연구소, 기업들과 데이터 제공관련 협력프로세스를 쌓으며 의미 있는 성과를 도출해왔다. 최근에는 과학기술정보통신부(이하 과기정통부)가 주관하고 한국지능정보사회진흥원(이하 NIA)이 추진하는 2022년도 인공지능 학습 데이터 구축사업에서 한국어 블렌더봇 데이터 과제를 수행하며 공공 대화 데이터 구축에도 힘을 쏟고있다"고 말했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[이데일리 김현아 기자]
심심이와 MOU를 통한 협업 연구를 진행중인 IBS 데이터 사이언스 그룹

인공지능(AI) 챗봇 ‘심심이(대표 최정회)’가 인공지능/빅데이터 연구자를 위한 데이터 공개를 본격화한다. 20년 동안 축적해 온 초거대 대화 데이터를 인공지능/빅데이터 연구·개발 커뮤니티에 공개한다.

심심이는 대화 데이터 특성을 감안해 웹서비스 깃허브(GitHub) 등에 전면 공개하는 방식을 활용하지 않기로 했다.

연구자 또는 연구팀 개별 신청을 접수 받은 뒤 심사, 비밀 유지 서약 등 관련 절차를 마친 다음 요구사항에 따라 제공 및 관리하는 방식을 활용하기로 결정한 것이다. 심심이 대화 데이터를 제공받고자 하는 연구자라면 심심이 한국어 공식 블로그에서 신청서를 내려받아 작성한 다음 제출·승인 후 소정의 절차를 거쳐 이용할 수 있다.

전세계 4억명 이상 누적 사용자 확보

AI 챗봇 심심이는 지난 2002년 서비스를 처음 시작한 이래 10년 동안 한국어 대화 중심으로 운영돼 왔다. 이어 지난 2012년부터 글로벌 서비스를 시작해 81개 언어를 바탕으로 전 세계 4억 명 이상의 누적 사용자를 확보했다.

회사는 인기 비결로 사용자가 직접 학습시킬 수 있는 인공지능 챗봇 심심이의 특성을 꼽았다. 유저가 방금 가르친 대화를 심심이가 바로 습득한다는 점에서 신선한 흥미를 유발한 것이다. 이러한 매력이 입소문을 타면서 글로벌 AI 챗봇으로 거듭날 수 있었다.

실제로 심심이는 특유의 커뮤니케이션 구조 덕분에 생동감 넘치는 대화를 전개하며 갈수록 더욱 많은 데이터를 확보하고 있다.

150억 건 대화 데이터 공개

이번에 심심이가 공개하기로 한 대화 데이터의 총 수량은 약 150억 건이다. 이 가운데 한국어 대화 데이터는 약 3억 건에 이른다. 대화 데이터 유형은 사용자가 심심이에게 가르친 대화 시나리오(싱글턴), 사용자-심심이 대화 데이터(준 멀티턴), V2 서비스의 심심이-심심이 대화 데이터(멀티턴) 등으로 나뉜다.

심심이는 이미 10여 년 전부터 대화 기술을 이용하고자 하는 전 세계 개발자들을 위해 API(Application Programming Interface) 제공 서비스를 오픈한 바 있다. 그 결과 3만 여 개 이상의 크고 작은 써드파티 기업 및 개인에게 제공했다.

최근에는 개발자 사이트인 심심이 챗봇공방에서 공공성 기반 연구개발 프로젝트에 무료 제공 혹은 할인 혜택을 진행하고 있다. 이에 따라 초·중등 교육 프로그램, 박물관 도슨트, 장애인 보조를 위한 챗봇 연구 개발 등 여러 프로젝트에서 호응을 얻고 있다.

그러나 심심이는 API 수준의 데이터 제공만으로는 연구 시각을 다양화하는데 부족한 면이 많다고 판단했다. 따라서 원천데이터 수준의 공개를 결정했다는 설명이다.

최정회 심심이(주) 대표는 “대화형 인공지능(AI)이 최근 대세로 자리잡으면서 심심이 대화 데이터 수요가 점점 두터워지고 있는데, 특히 심심이는 국내외 학교, 연구소, 기업들과 데이터 제공관련 협력프로세스를 쌓으며 의미 있는 성과를 도출해왔다. 최근에는 과학기술정보통신부(이하 과기정통부)가 주관하고 한국지능정보사회진흥원(이하 NIA)이 추진하는 2022년도 인공지능 학습 데이터 구축사업에서 한국어 블렌더봇 데이터 과제를 수행하며 공공 대화 데이터 구축에도 힘을 쏟고있다”고 말했다.

그는 “이 과정에서 한국어 챗봇 연구개발을 위한 대화 데이터가 빈약한 점이 안타까웠는데 적어도 연구자들에게는 보다 폭넓게 대화 데이터를 제공할 수 있다는 점에 착안했다”면서 “연구자들과 접촉면을 확대해 서로 도움을 주고 받으며 한국어 챗봇 기술 수준을 높일 수 있는 기회가 더욱 많아지길 기대한다”고 전했다.

김현아 (chaos@edaily.co.kr)

Copyright © 이데일리. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?