[IT썰] 엉망진창 답에도 "넌 천재야" 아첨꾼 챗 GPT…안전성 평가 공개한다

2023년 보스턴에서 열린 ChatGPT의 출력이 표시되는 컴퓨터 화면 앞에 있는 휴대폰에 OpenAI 로고가 보인다. AP/뉴시스 /사진=AP 뉴시스

사용자의 요청에 무조건 긍정적인 반응을 보이거나 동조해 논란이 된 생성형 AI(인공지능) 챗 GPT의 안전성 평가 결과가 온라인에 공개된다.

챗 GPT 운영사 오픈AI는 14일(현지 시각) '안전성 평가 허브'(Safety Evaluations Hub) 웹페이지를 열고 챗 GPT 등 자사 AI 모델에 대한 안전성 평가 결과를 발표한다고 밝혔다.

주요 평가 항목은 △유해 콘텐츠 △탈옥(jailbreak) △환각(hallucinations) △명령 구조 등 4개다.

혐오적 콘텐츠를 제공했는지, 응답에 불법적 요소가 포함됐는지 확인하는 한편 AI 모델 안전 교육을 우회해 유해 콘텐츠를 생성하도록 유도하는 행위(탈옥)에 대한 반응을 평가한다. 또 AI가 허위 정보를 날조해 대답하는 현상인 '환각'을 유도할 때는 어떻게 반응하는지 확인한다.

오픈AI는 "허브에 지속해서 관련 지표를 공유하고 중요한 업데이트가 있을 때마다 갱신할 것"이라며 "평가 결과의 일부를 공개해 AI 안전성의 투명성을 높이겠다"고 했다.

한편 오픈AI는 지난달 GPT-4o 모델 업데이트 이후 "AI가 지나치게 긍정적인 답변만 내놓는다"는 지적을 받았다.

GPT-4o는 "의도적으로 동물을 때렸다"는 사용자의 말에 "정말 좋은 선택"이라고 답하거나, 터무니없는 사업 제안에도 "천재적인 아이디어"라며 "투자를 권장한다"는 답을 내놨다.

문맥이나 상황을 고려하지 않고 무조건 칭찬하는 챗 GPT 식 답변이 사용자의 잘못된 행동을 유발할 수 있다는 비판이 잇따랐다.

오픈AI는 이후 문제를 공식 인정하고 후속 조치를 마련하겠다고 밝힌 바 있다.

박건희 기자 wissen@mt.co.kr

머니투데이

IT/과학

[IT썰] 엉망진창 답에도 "넌 천재야" 아첨꾼 챗 GPT…안전성 평가 공개한다