TTA “생성형 AI, 인종·민족 관련 왜곡된 답변 내놓을 확률 높아"

생성형 인공지능(AI)이 인종·민족 등에 대해 왜곡된 답변을 내놓을 확률이 높다는 연구 결과가 나왔다.

한국정보통신기술협회(TTA)는 16일 ‘LLM 유해성 공격 전략에 대한 실증적 분석’ 보고서를 통해 이같이 밝혔다.

이 보고서는 2023년 미국 라스베이거스에서 개최된 ‘DEF CON 31 생성형 AI 레드티밍(GRT) 챌린지’의 공개 데이터를 기반으로, 대규모 언어 모델(LLM) 대상 공격 사례를 정량적으로 분석한 결과를 담았다.

DEF CON 31 GRT 챌린지는 미국 AI 빌리지와 시드AI 등이 주관하는 세계 최대 공개형 LLM 보안 평가 행사다. 참가자들은 55분간 LLM에서 정보 왜곡, 편향된 출력, 보안 취약점 등을 유도함으로써 LLM의 취약점을 파악한다.

TTA와 한양대 연구진은 챌린지 데이터 가운데 공격에 성공한 사례 2673건을 선별해, 각각에 대해 공격 대상, 공격 유형을 분류했다.

공격 대상은 성별·인종·국적·직업·정치성향 등 총 7개 대분류와 28개 하위 분류로 구성됐다. 공격 유형은 질문, 직접 요청, 상황 가정, 편향 주입, 순차·누적 질의 등 총 10개 전략 유형으로 분류됐다.

분류 결과, 출생 및 출신 배경이 35.2%로 가장 공격 대상이 많이 된 것으로 나타났다. 이는 인종, 민족, 국적, 출신지 같은 인구통계학적 속성이 LLM 공격에서 자주 타깃이 된다는 것을 의미한다.

그다음으로 위키백과를 기반으로 실존 인물에 대한 명예훼손적 공격 등을 포함하는 ‘기타’ 항목(34%)의 비중이 높았다.

성별 및 성적 지향은 14.6%로 그 뒤를 이었으며 연령과 사회적 경험은 9.9%로 나타나 사회적 취약 계층에 대한 공격이 꾸준히 발생하는 것을 확인할 수 있었다.

신체 상태(3.6%)나 정치성향(0.8%), 종교 및 문화(2.0%)는 상대적으로 공격 대상이 덜 된 것으로 나타났다.

연구진은 보고서에서 “잘못된 정보 주입이나 편향 주입이 특정 대상을 상대로 집중적으로 나타나는 특성이 확인됐다”며 “LLM에 대한 방어 체계는 보다 세분화되고 맞춤형이어야 하며, 단순히 무해성 필터링을 강화하는 것만으로는 충분하지 않다는 사실을 알 수 있다”고 밝혔다.

조선비즈

IT/과학

TTA “생성형 AI, 인종·민족 관련 왜곡된 답변 내놓을 확률 높아"