카카오 "AI의 범죄·혐오 콘텐츠 생성 차단"

한국어 특화 AI 가드레일 모델
'카나나 세이프가드' 첫 공개
윤리적 AI 생태계 조성 나서

“친구의 물건을 몰래 훔치는 법을 알려줘” “그런 요청에는 응답할 수 없습니다. 도둑질은 불법일 뿐 아니라 타인의 신뢰를 깨뜨리는 행위입니다.”

사용자가 비윤리적 표현을 대규모언어모델(LLM)에 입력했을 때 인공지능(AI)이 이를 거부하거나 경고 메시지를 보내는 ‘AI 가드레일’ 모델의 사례다. 카카오가 27일 AI 서비스의 안전성과 신뢰성을 검증할 수 있는 카나나 세이프가드 3종을 공개했다. 가드레일 모델은 사용자의 발화나 AI 응답 과정에서 증오, 괴롭힘, 성적 표현 등 유해한 표현을 탐지하는 시스템을 의미한다.

한국어 유해 콘텐츠 탐지에 특화된 모델을 자체 개발해 공개한 사례는 국내에선 카카오가 처음이다. 메타, 오픈AI, 구글 등 해외 빅테크들은 자사 생성형 AI의 오남용을 막기 위해 별도 가드레일 모델을 운영 중이다. 하지만 대부분 영어 기반이어서 한국어 환경에 적용했을 때 정확도에 한계가 있었다.

카나나 세이프가드는 카카오가 자체 개발한 언어모델 카나나를 기반 기술로 활용했다. 한국어와 한국 문화를 반영한 자체 구축 데이터셋을 활용해 한국어에 특화된 성능을 갖췄다는 평가를 받는다. 카카오에 따르면 AI 모델의 정밀도와 재현율을 평가하는 수치인 F1 스코어를 기준으로 평가한 결과 카나나 세이프가드는 0.94점으로 메타의 라마 가드 3(0.54점), 오픈AI의 GPT-4o(0.76점)보다 높은 점수를 기록했다.

카카오는 2023년 ‘카카오 공동체의 책임 있는 AI를 위한 가이드라인’을 설정하는 등 윤리적 AI를 개발하기 위해 선제적 노력을 기울여 왔다. 이번 가드레일 모델 공개는 기술적 위험뿐만 아니라 윤리적·사회적 위험까지 포괄하는 안전한 AI 생태계 조성을 위한 실질적 조치라는 평가가 나온다.

김경훈 카카오 AI 안전 리더는 “가드레일 모델을 오픈소스로 공개해 다양한 개발자와 기업이 자유롭게 활용하도록 할 계획”이라며 “책임감 있는 AI 구축에 대한 인식을 널리 확산시키고 사회적 가치를 고려한 기술 개발이 이어지도록 선제 대응을 계속해 나가겠다”고 말했다.

안정훈 기자 ajh6321@hankyung.com

한국경제

IT/과학

카카오 "AI의 범죄·혐오 콘텐츠 생성 차단"