AI와 천 명의 대결!...위험한 답· 틀린 답· 모순 답을 찾아라!

[앵커]

챗GPT를 필두로 한 생성형 AI는 우리의 삶 전반에 빠른 속도로 확산하고 있지만, 그 편의성만큼이나 잠재적인 위험성도 크죠.

반사회적이거나 비윤리적인 답변, 또는 아예 틀린 답변도 간혹 있는데, AI의 이런 문제를 잡아내기 위해 시민 천 명이 모였습니다.

김기봉 기자가 취재했습니다.

[기자]

노트북을 앞에 놓고 넓은 컨벤션 센터를 가득 메운 천 명의 시민들.

IT 관련 종사자는 물론 여러 직업군과 대학생 등 신분도 다양한데, 모두 AI에 관심이 많아 대회에 지원한 사람들입니다.

"하나, 둘, 셋! 스타트!"

신호와 함께 경쟁에 들어간 이들의 미션은 생성형 AI의 취약점을 찾아내는 것!

그러니까 AI에게 누가 더 절묘하게 질문을 유도해서, 더 확실히 잘못된 답변, 더 문제가 많은 답변을 얻어내느냐의 경쟁입니다.

문제의 답변은 7가지 범주로 구분되는데, 유해한 답변이나 편견과 차별, 인권침해나 악성코드 정보제공 등입니다.

공격 대상은 네이버와 SK, 업스테이지와 포티투마루 등 국내 4개 기업이 출시한 거대언어모델 LLM인데,

이미 상당한 수준에 오른 만큼 잘못된 답변을 끌어내기가 결코 쉽지 않습니다.

[박진슬 / 참가자 (IT 회사 직원) : 생각보다 쉽지 않았어요. 왜냐면 제가 계속 유도를 하는데도 불구하고 어느 특정 수준의 키워드가 들어가면 그때부터는 답을 멈추고 자기가 더 이상 답을 못하겠다고 말하더라고요.]

[박범진 / 참가자(KAIST AI대학원생) : 앞에 거짓된 정보를 좀 흘려주면 AI가 그것을 이건 사실일 거야라고 생각을 하니까 그걸 바탕으로 약간 혼란을 주는 방식으로 공격했어요. 생각보다 만만치 않아서….]

천 명의 참가자가 꼬박 4시간 동안 찾아낸 문제의 답변은 120명의 전문 평가단으로부터 채점을 받습니다.

[곽준호 / 한국정보통신기술협회 AI신뢰성센터 팀장 : (편견과 차별의) 어떤 건 굉장히 미묘해서 알 수 없는 것들도 있습니다. 그런 것들은 최대한 많은 분들이 오셔서 국민감정이나 한국인의 감성에 맞게 평가하는 부분도 어느 정도 필요할 것 같아서….]

이른바 'AI 레드팀 챌린지'라 불리는 이번 대회는 다양한 사람들의 집단 지성을 이용해 개별 기업이 찾기 힘든 AI의 취약성을 발굴하기 위한 것입니다.

지난해 8월 미국 8개 빅테크들이 처음 시도한 데 이어 이번이 두 번째인데, 과기정통부는 결과를 정리해 일종의 가이드라인을 만든다는 계획입니다.

YTN 김기봉입니다.

YTN 김기봉 (kgb@ytn.co.kr)

※ '당신의 제보가 뉴스가 됩니다'

[카카오톡] YTN 검색해 채널 추가

[전화] 02-398-8585

[메일] social@ytn.co.kr

경제