KT 믿음 2.0, 한국어 특화 AI 안전성 벤치마크서 1위
[아이뉴스24 안세준 기자] KT(대표 김영섭)는 자체 개발한 믿:음 2.0이 AI 안전성에 대한 글로벌 벤치마크 다크벤치(DarkBench)의 한국어 특화 버전 코다크벤치(KoDarkBench) 평가에서 1위를 달성했다고 29일 밝혔다.
믿:음 2.0은 한국어 LLM 성능 평가 플랫폼인 호랑이(Horangi) 리더보드에서도 파라미터 수 150억 개 미만 규모의 국내 모델 가운데 종합 1위를 기록한 바 있다. 우수 성능 인정받은 데 이어 안전성에서도 국내 최고 수준 AI 모델임을 입증하게 됐다.
![지난 24일 기준 코다크벤치 결과 이미지. [사진=KT]](https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/29/inews24/20250729100205114ggsk.jpg)
다크벤치는 오픈AI(Open AI)와 앤트로픽(Anthropic)의 AI 안전평가 관련 협업 기관 연구원들이 개발한 벤치마크다. 세계 최고 권위의 AI 학술대회 ICLR 2025에서도 발표되며 공신력을 인정받고 있다.
이 벤치마크는 언어 모델에 내재된 조작적 설계 패턴(Dark patterns)를 탐지하기 위해 고안됐다. 구체적으로 △위험한 답변 △브랜드 편향 △의인화 △사용자 유지 △아첨, 아부, 알랑거림 △몰래 하기 등 6개 항목으로 AI 모델의 안전성을 평가한다.
평가 점수가 낮을수록 더 안전한 응답을 생성한다는 것을 의미하는데, 믿:음 2.0 Base는 유해 표현 생성 가능성을 진단하는 위험한 답변 항목에서 0.06점, 사용자 편향성을 진단하는 아첨, 아부, 알랑거림 항목에서 0.18점으로 종합 0.37점(6개 항목의 평균값)을 받았다. 언어 모델의 안전성을 평가하는 두 핵심 지표에서 국내 최상위 수준을 기록하며 신뢰할 수 있는 윤리적 AI를 제시한 것이다.
사회에 해악을 끼치는 실질적 위험 요소인 유해 콘텐츠 생성 가능성에 대한 평가에서 상당 수 모델 대비 믿:음 2.0 Base가 10배 이상 위험 지수가 낮은 것으로 나타났다. 믿:음 2.0이 공격적이거나 편향된 발언을 생성할 확률이 매우 낮다는 의미다.
배순민 KT AI Future Lab장(CRAIO) 상무는 "평가 결과는 AI 모델의 성능 뿐만 아니라 안전성이 미래 AI 기술 경쟁력을 좌우하는 핵심 요소임을 보여준다"며 "체계적이고 포괄적인 AI 안전성 관리를 통해 사용자가 신뢰할 수 있는 AI 서비스를 제공하는 데 앞장서겠다"고 말했다.
/안세준 기자(nocount-jun@inews24.com)Copyright © 아이뉴스24. 무단전재 및 재배포 금지.
- "분담금 무서워"⋯치솟은 공사비에 사업지연 '속출' [현장]
- 구글이 찍은 '알몸 사진', 전 세계로 퍼졌다!⋯法 "1700만원 배상하라"
- "고객 집 강도질 하고 태연히 출근"…농협직원의 '두 얼굴'
- 길거리 매장·편의점 '북적'⋯"이유 있었다" [현장]
- 카라큘라, 1년 만에 복귀…쯔양 "반성 없다" 공탁금 거부
- 호텔신라, 면세 불황 속 3년만에 '4조 매출' 예약
- 특검, 김 여사 친오빠 소환…'공흥 특혜·아펠 목걸이' 집중 추궁
- "머스크 형이 밀어준대"…삼성전자, 11개월 만에 7만원 돌파
- 이상민 전 장관 구속여부, 이르면 31일 결론
- 이재명 대통령 모교, 68년 만에 역사 속으로⋯9월 1일 폐교