스마일게이트 AI센터, 악플·혐오 발언 데이터셋 공개
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
스마일게이트 AI센터는 악플 및 혐오 발언 데이터셋을 공개한다고 20일 밝혔다.
스마일게이트 AI 센터는 최근 온라인상에서 혐오 표현 늘어나고 있는만큼 악플 발언 데이터셋을 구축했다.
스마일게이트 AI 센터의 악플 및 혐오 발언 데이터셋은 향후 다양한 영역에서 활용될 것으로 기대된다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
스마일게이트 AI 센터는 최근 온라인상에서 혐오 표현 늘어나고 있는만큼 악플 발언 데이터셋을 구축했다. 지식 콘텐츠 스타트업 언더스코어와 협업을 통해 이뤄졌다.
악플 및 혐오 발언 데이터는 2019년 1월 1일부터 2021년 7월 1일까지 포털 사이트, 커뮤니티 등 다양한 웹사이트의 게시글을 대상으로 수집했다. 혐오 관련 데이터의 시의성과 편향성을 띄고 있는 특성을 감안했고, 약 55만개의 데이터를 기반으로 1만개의 데이터셋을 구축했다.
데이터셋 구축 과정에서는 ‘여성/가족’ ‘성소수자’ ‘남성’ ‘인종/국적’ ‘연령’ ‘지역’ ‘종교’ ‘기타혐오’ 등 8개의 대상을 범주화 했다. 또 혐오 발언 분류를 위한 기준 모델도 공개했다.
스마일게이트 AI 센터의 악플 및 혐오 발언 데이터셋은 향후 다양한 영역에서 활용될 것으로 기대된다. 이번에 수집된 데이터는 스마일게이트 AI 센터 깃허브 페이지를 통해 이달 중 공개될 예정이다.
한우진 스마일게이트 AI 센터장은 “이번에 공개된 데이터가 혐오 표현이나 인공지능의 윤리성이 사전에 분류 및 예방되어 좀 더 안전하게 인공지능을 활용하는 데 밑거름이 되기를 바란다”며 “향후 스마일게이트 AI 센터는 그 동안 진행해온 연구 결과와 노력들이 기술적인 관점에서 뿐만 아니라 사회에 긍정적인 기여를 할 수 있도록 다양한 노력을 시도할 것“이라고 말했다.
김정유 (thec98@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.
- 신기록 행진 LG에너지솔루션, '따상 가면 48만원 차익'
- "女의원 가슴 쪽 검지로 '콕콕' 찔러, 모욕감 줘"
- "최순실 '기치료'도 여론형성"…김건희 통화 방송 허용된 이유
- 홍정욱 '올가니카', 中서 430억 투자 유치…안철수 "진심으로 축하"
- "모른다"는 이재명…정청래가 폭로한 '이핵관'은 누구?
- [단독]토스, 약관까지 바꾸며 카드서비스 중단…"소비자 기만하나"
- (영상)암 수술받은 배를.. 60대 무차별 폭행한 30대
- 홍준표 "양아치가 대통령되는 건 막아야"…이재명 저격
- 홍상수 감독 '소설가의 영화', 베를린영화제 경쟁부문 초청
- [팬데믹2년]1457→3305→2840선…천당·지옥 오간 동학개미