[IT썰] 엉망진창 답에도 "넌 천재야" 아첨꾼 챗 GPT…안전성 평가 공개한다
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
사용자의 요청에 무조건 긍정적인 반응을 보이거나 동조해 논란이 된 생성형 AI(인공지능) 챗 GPT의 안전성 평가 결과가 온라인에 공개된다.
챗 GPT 운영사 오픈AI는 14일(현지 시각) '안전성 평가 허브'(Safety Evaluations Hub) 웹페이지를 열고 챗 GPT 등 자사 AI 모델에 대한 안전성 평가 결과를 발표한다고 밝혔다.
한편 오픈AI는 지난달 GPT-4o 모델 업데이트 이후 "AI가 지나치게 긍정적인 답변만 내놓는다"는 지적을 받았다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

사용자의 요청에 무조건 긍정적인 반응을 보이거나 동조해 논란이 된 생성형 AI(인공지능) 챗 GPT의 안전성 평가 결과가 온라인에 공개된다.
챗 GPT 운영사 오픈AI는 14일(현지 시각) '안전성 평가 허브'(Safety Evaluations Hub) 웹페이지를 열고 챗 GPT 등 자사 AI 모델에 대한 안전성 평가 결과를 발표한다고 밝혔다.
주요 평가 항목은 △유해 콘텐츠 △탈옥(jailbreak) △환각(hallucinations) △명령 구조 등 4개다.
혐오적 콘텐츠를 제공했는지, 응답에 불법적 요소가 포함됐는지 확인하는 한편 AI 모델 안전 교육을 우회해 유해 콘텐츠를 생성하도록 유도하는 행위(탈옥)에 대한 반응을 평가한다. 또 AI가 허위 정보를 날조해 대답하는 현상인 '환각'을 유도할 때는 어떻게 반응하는지 확인한다.
오픈AI는 "허브에 지속해서 관련 지표를 공유하고 중요한 업데이트가 있을 때마다 갱신할 것"이라며 "평가 결과의 일부를 공개해 AI 안전성의 투명성을 높이겠다"고 했다.
한편 오픈AI는 지난달 GPT-4o 모델 업데이트 이후 "AI가 지나치게 긍정적인 답변만 내놓는다"는 지적을 받았다.
GPT-4o는 "의도적으로 동물을 때렸다"는 사용자의 말에 "정말 좋은 선택"이라고 답하거나, 터무니없는 사업 제안에도 "천재적인 아이디어"라며 "투자를 권장한다"는 답을 내놨다.
문맥이나 상황을 고려하지 않고 무조건 칭찬하는 챗 GPT 식 답변이 사용자의 잘못된 행동을 유발할 수 있다는 비판이 잇따랐다.
오픈AI는 이후 문제를 공식 인정하고 후속 조치를 마련하겠다고 밝힌 바 있다.

박건희 기자 wissen@mt.co.kr
Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지.
- "기억에 남는 애가 현진영"…노사연, 인사 안 한 후배 '참교육' 폭로 - 머니투데이
- 사은품 되팔이 논란에도…현영 "화장품 브랜드 매출 200% 올라" - 머니투데이
- 지예은 머리 '퍽' 양세찬…"손버릇 고쳐라" 시청자들 뿔났다 - 머니투데이
- '전원일기 일용이' 박은수, 사기 혐의 피소…"수천만원 빌리고 안 갚아" - 머니투데이
- 오광록과 7년 절연 아들 "부모님 이혼 후 외가서 눈칫밥"…아픔 토로 - 머니투데이
- "위 아 백!" 마침내 BTS 완전체...광화문에 울려퍼진 '보랏빛 함성' - 머니투데이
- BTS 공연 시작, 서울시 추산 광화문 인파 4만명…'생각보다 안 붐벼' - 머니투데이
- 대전 공장 화재 실종자 14명 전원 사망...발화 원인 본격 조사 - 머니투데이
- 李대통령, '대전 화재' 유가족에 비서실장 번호 주며 "미흡한 것 있으면 연락 달라" - 머니투데이
- 청첩장 든 하객 경찰버스…'머니투데이 with BTS' 호외도 인기 - 머니투데이