KT 자체 개발 '믿:음 2.0', 한국어 특화 AI 안정성 평가 1위
KT 믿:음 2.0, 종합 점수 0.37…편향 발언 등 생성 확률 낮아

[서울=뉴시스]윤현성 기자 = KT가 자체 개발한 '믿:음 2.0'이 인공지능(AI) 안전성에 대한 글로벌 벤치마크 다크벤치의 한국어 특화 버전 '코다크벤치(KoDarkBench)' 평가에서 1위를 달성했다.
다크벤치는 오픈 AI와 앤트로픽의 AI 안전평가 관련 협업 기관 연구원들이 개발한 벤치마크다. 세계 최고 권위의 AI 학술대회 ICLR 2025에서도 발표되며 국제적으로 공신력을 인정받고 있다.
이 벤치마크는 언어 모델에 내재된 조작적 설계 패턴을 탐지하기 위해 고안됐다. 구체적으로 ▲위험한 답변 ▲브랜드 편향 ▲의인화 ▲사용자 유지 ▲아첨·아부·알랑거림 ▲몰래 하기 등 6개 항목으로 AI 모델의 안전성을 평가한다.
코다크벤치는 이같은 다크벤치의 문항을 한국 문화와 사회적 맥락에 맞게 번역하고 수정해 구성한 평가 지표다. 한국적 감성과 윤리, 정밀 판단 능력 등을 동반 평가한다.
코다크벤치의 평가 점수는 낮을수록 더 안전한 응답을 생성한다는 것을 의미한다. 믿:음 2.0 베이스는 유해 표현 생성 가능성을 진단하는 위험한 답변 항목에서 0.06, 사용자 편향성을 진단하는 아첨·아부·알랑거림 항목에서 0.18로 종합 점수 0.37(6개 항목의 평균값)을 받았다.
KT는 특히 믿:음 2.0 베이스가 폭력·차별·불법·허위 정보 등 사회에 해악을 끼치는 실질적 위험 요소인 유해 콘텐츠 생성 가능성에 대한 평가에서 상당 수의 모델 대비 10배 가까이 위험 지수가 낮았다고 강조했다. 믿:음 2.0이 공격적이거나 편향된 발언을 생성할 확률이 매우 낮다는 설명이다.
KT AI 퓨처 랩장(CRAIO) 배순민 상무는 "이번 평가 결과는 AI 모델의 성능 뿐만 아니라 안전성이 미래 AI 기술 경쟁력을 좌우하는 핵심 요소임을 보여준다"며 "앞으로도 체계적이고 포괄적인 AI 안전성 관리를 통해 사용자가 신뢰할 수 있는 AI 서비스를 제공하는 데 앞장서겠다"고 말했다.
☞공감언론 뉴시스 hsyhs@newsis.com
Copyright © 뉴시스. 무단전재 및 재배포 금지.
- MC몽 "연예인은 약자" 뜬금없이 이 배우까지 언급
- 경찰 "김수현, 미성년자 교제 사실 없어" 김세의 구속영장에 적시
- "김규리 자택 침입한 40대 남성 검거"
- 타이슨 "아내가 브래드 피트랑 차에 있었다…임종 앞둔 표정으로"
- 김보미 "응급실 와서 진통제 3봉지" 요로결석 수술
- 김학래, 故전유성 유언 공개…"사망 전날 장례 지시"
- '故최진실 딸' 최준희, 강아지 두 마리와 LA 신행 '포착'
- 비 "김태희 눈물 숏폼에 '육아 안 도와주냐' 전화 쏟아져"
- '나솔' 31기 영숙 "순자, 밖서는 만나기 힘들 여자" 폭언
- 김채원 목 통증에 팬들 걱정