딥마인드, AGI 경보 시스템 만든다…AI 서울 정상회의서 발표
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
구글 딥마인드는 인공지능(AI) 모델이 사람들에게 심각하고 즉각적인 위협을 가할 수 있는 미래가 도래할 것에 대비해 새로운 프레임워크를 18일 발표했다.
딥마인드 내에서는 현재 '레드 팀'이 수개월 동안 다양한 프롬프트를 사용해 모델의 안전 장치를 우회하려고 시도하는 테스트를 한다.
딥마인드는 AI 모델의 조기 경고 시스템을 1년 이상 연구해왔으며, 대부분의 회사들이 사용하는 방법을 훨씬 뛰어넘는 새로운 모델 평가 방법에 대한 논문을 발표했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
초지능 AI 모델 출현 위험 대비
“모델 평가 주기적 재검토한다”
2025년부터 감시 도구 전면 실시
딥마인드 블로그에 따르면, 딥마인드는 앞으로 모델 훈련에 사용되는 컴퓨팅 파워가 6배 증가하거나 모델이 3개월 동안 미세 조정될 때마다 모델을 재평가한다. 딥마인드는 다른 AI 기업, 연구자, 입법가와 협력해 해당 프레임워크를 개선하고, 2025년까지 감시 도구를 구현한다는 방침이다.
딥마인드 내에서는 현재 ‘레드 팀’이 수개월 동안 다양한 프롬프트를 사용해 모델의 안전 장치를 우회하려고 시도하는 테스트를 한다. 이 접근법은 현행 AI 모델이 충분히 강력하지 않아 적절히 작동하고 있지만, 연구자들은 모델의 능력이 향상함에 따라 더 강력한 프로세스가 필요하다고 믿고 있다.
딥마인드가 발표한 프론티어 안전 프레임워크는 이러한 문제를 해결하기 위한 방법 중 하나이다. 딥마인드는 “이러한 위험이 현재 모델의 범위를 넘어섰지만, 프레임워크를 구현하고 개선하는 것이 이러한 문제를 해결하는 데 도움이 되기를 바란다”고 밝혔다.
딥마인드는 AI 모델의 조기 경고 시스템을 1년 이상 연구해왔으며, 대부분의 회사들이 사용하는 방법을 훨씬 뛰어넘는 새로운 모델 평가 방법에 대한 논문을 발표했다. 프론티어 모델 프레임워크는 모델의 지속적인 평가와 연구자들이 ‘중요한 능력 수준’을 발견했을 때 취해야 할 완화 방법을 포함한 간결한 프로토콜 세트를 담고 있다. 여기서 중요한 능력 수준은 AI 연구 분야에서 인간을 조종할 수 있는 모델이나 정교한 악성 소프트웨어를 작성할 수 있는 능력을 가리킨다.
딥마인드는 자율성, 생물 보안, 사이버 보안, 기계 학습 연구 및 개발의 네 가지 영역에서 특정 중요한 능력 수준을 설정했다. 딥마인드는 다음 주 서울에서 열리는 AI 안전 정상 회담에서 프레임워크에 대해 발표할 예정이다.
Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지
- “80대 로버트 드니로와 성관계하고 싶다”…방송서 ‘돌발발언’한 여배우 - 매일경제
- 갑자기 한국에 꽂힌 월가…“쿠팡 사라” “삼전·하이닉스는 핵심종목” - 매일경제
- “여러분에게 할 말 있다” 최화정, 27년 만에 전한 슬픈 소식 - 매일경제
- “북한 여성들에겐 충격”…김정은 딸 입은 옷, 대체 뭐길래 - 매일경제
- 오늘의 운세 2024년 5월 18일 土(음력 4월 11일)·2024년 5월 19일 日(음력 4월 12일) - 매일경제
- “한국에서 일어난 슬픈 일, 나랑은 관련없어”…이런 생각 박살 낼 보고서 나왔다 [Books] - 매일
- “14억짜리 송파 아파트 3억5000만원에 샀다”…또 고개드는 갭투자 - 매일경제
- “나도 탈당, 조국당 간다”…추미애 탈락·우원식 선출에 민주당 내홍 - 매일경제
- “돈 쓸어담더니 5천억에 땅 샀다”…금싸라기땅에 사옥 짓는 엔비디아 - 매일경제
- 이정후, 회복까지 6개월...다음 시즌 정상 복귀 가능하다 - MK스포츠