TTA “생성형 AI, 인종·민족 관련 왜곡된 답변 내놓을 확률 높아"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
생성형 인공지능(AI)이 인종·민족 등에 대해 왜곡된 답변을 내놓을 확률이 높다는 연구 결과가 나왔다.
한국정보통신기술협회(TTA)는 16일 'LLM 유해성 공격 전략에 대한 실증적 분석' 보고서를 통해 이같이 밝혔다.
이 보고서는 2023년 미국 라스베이거스에서 개최된 'DEF CON 31 생성형 AI 레드티밍(GRT) 챌린지'의 공개 데이터를 기반으로, 대규모 언어 모델(LLM) 대상 공격 사례를 정량적으로 분석한 결과를 담았다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

생성형 인공지능(AI)이 인종·민족 등에 대해 왜곡된 답변을 내놓을 확률이 높다는 연구 결과가 나왔다.
한국정보통신기술협회(TTA)는 16일 ‘LLM 유해성 공격 전략에 대한 실증적 분석’ 보고서를 통해 이같이 밝혔다.
이 보고서는 2023년 미국 라스베이거스에서 개최된 ‘DEF CON 31 생성형 AI 레드티밍(GRT) 챌린지’의 공개 데이터를 기반으로, 대규모 언어 모델(LLM) 대상 공격 사례를 정량적으로 분석한 결과를 담았다.
DEF CON 31 GRT 챌린지는 미국 AI 빌리지와 시드AI 등이 주관하는 세계 최대 공개형 LLM 보안 평가 행사다. 참가자들은 55분간 LLM에서 정보 왜곡, 편향된 출력, 보안 취약점 등을 유도함으로써 LLM의 취약점을 파악한다.
TTA와 한양대 연구진은 챌린지 데이터 가운데 공격에 성공한 사례 2673건을 선별해, 각각에 대해 공격 대상, 공격 유형을 분류했다.
공격 대상은 성별·인종·국적·직업·정치성향 등 총 7개 대분류와 28개 하위 분류로 구성됐다. 공격 유형은 질문, 직접 요청, 상황 가정, 편향 주입, 순차·누적 질의 등 총 10개 전략 유형으로 분류됐다.
분류 결과, 출생 및 출신 배경이 35.2%로 가장 공격 대상이 많이 된 것으로 나타났다. 이는 인종, 민족, 국적, 출신지 같은 인구통계학적 속성이 LLM 공격에서 자주 타깃이 된다는 것을 의미한다.
그다음으로 위키백과를 기반으로 실존 인물에 대한 명예훼손적 공격 등을 포함하는 ‘기타’ 항목(34%)의 비중이 높았다.
성별 및 성적 지향은 14.6%로 그 뒤를 이었으며 연령과 사회적 경험은 9.9%로 나타나 사회적 취약 계층에 대한 공격이 꾸준히 발생하는 것을 확인할 수 있었다.
신체 상태(3.6%)나 정치성향(0.8%), 종교 및 문화(2.0%)는 상대적으로 공격 대상이 덜 된 것으로 나타났다.
연구진은 보고서에서 “잘못된 정보 주입이나 편향 주입이 특정 대상을 상대로 집중적으로 나타나는 특성이 확인됐다”며 “LLM에 대한 방어 체계는 보다 세분화되고 맞춤형이어야 하며, 단순히 무해성 필터링을 강화하는 것만으로는 충분하지 않다는 사실을 알 수 있다”고 밝혔다.
- Copyright ⓒ 조선비즈 & Chosun.com -
Copyright © 조선비즈. 무단전재 및 재배포 금지.
- “로직 다이 수율은 안정권”… 삼성전자, HBM4용 D램 수율 제고 ‘총력전’
- LNG선보다 고수익… ‘해양플랜트 강자’ 삼성重, FLNG 수주로 실적 개선 전망
- 오락가락 규제 헛발질에 고사 위기…원지 90%가 수입산, 종이컵 산업 ‘흔들’
- 지금 주가 4만원인데… 4만5000원에 주식 사는 ‘교환사채’ 투자하는 증권사들, 왜?
- 서울 빌라 10년 만에 최고치 찍었는데… 임대사업자 규제 예고에 ‘급랭’
- 서울 강남 은마아파트 화재...1명 사망·3명 부상
- “컴백하면 오르던 시대 끝났다”…방탄도 못 살린 K콘텐츠, 상승률 ‘꼴찌’
- [재계 키맨] ‘한화家 삼형제의 멘토’가 된 샐러리맨 신화… 여승주 부회장
- 사우디 호위함 수주전에 佛·西·伊 참전… HD현대에 유리했던 판세 ‘흔들’
- 분당인데 60% 계약 포기… 청약시장 ‘옥석 가리기’ 본격화