애플, 자체 AI모델 성능 보고서 공개…"MS·구글보다 만족도 높아"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
애플이 지난 10일(현지시간) 연례 '세계 개발자 회의(WWDC) 2024'에서 첫 AI 시스템인 '애플 인텔리전스'를 공개하고 전 세계의 관심이 쏠린 가운데 애플이 '온디바이스 및 서버 파운데이션 모델 성능 보고서'를 공개했다.
13일 업계에 따르면 애플은 해당 보고서에서 애플 인텔리전스의 기반이 되는 파운데이션 모델에 대해 설명하면서, 애플의 AI 기능이 MS와 구글 등 기존 AI를 공개한 기업보다 높은 만족도를 보였다고 언급했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
애플이 지난 10일(현지시간) 연례 '세계 개발자 회의(WWDC) 2024'에서 첫 AI 시스템인 '애플 인텔리전스'를 공개하고 전 세계의 관심이 쏠린 가운데 애플이 '온디바이스 및 서버 파운데이션 모델 성능 보고서'를 공개했다.
13일 업계에 따르면 애플은 해당 보고서에서 애플 인텔리전스의 기반이 되는 파운데이션 모델에 대해 설명하면서, 애플의 AI 기능이 MS와 구글 등 기존 AI를 공개한 기업보다 높은 만족도를 보였다고 언급했다.
이와 관련 애플은 '인간 만족도(Human Satisfaction)' 벤치마크 점수를 공개하면서 자사가 사용처에 맞게 모듈화한 AI 기능이 파이-3, 구글 젬마, 오픈AI GPT-4 터보보다 인간 채점자들에게 선호됐다고 설명했다. 30억개의 매개변수를 가진 온디바이스 모델은 파이-3 미니, 미스트랄-7B, 젬마-7B 등 더 큰 모델보다 성능이 뛰어나며, 서버 모델은 데이터브릭스의 DBRX-인스트럭트, 미스트랄-8x22B, GPT 3.5 터보보다 유리하고 효율적이라고 작성했다.
애플은 평가 방식에 대해 '신중하게 샘플로 취해진 응답 세트 750개'를 사용했다고 밝히며 "벤치마킹에서 사람의 평가에 중점을 둔 이유는 사용자 경험과 높은 상관관계가 있기 때문"이라고 설명했다.
다만 이에 대해 업계 등에서는 AI 모델 성능을 평가할 때 일반적으로 사용되는 표준 벤치마크가 아닌 자체 벤치마크로 평가한 것이 적절하지 않다는 지적이 나온다. 애플이 자체 개발한 비공개 AI 모델과 이미 공개된 타 기업의 모델을 비교했기 때문에 외부에서는 실험 결과를 재현하거나 검증할 수 없기 때문이다. 또 평가에 참여한 이들이 어떤 분포를 갖는지 공개하지 않았을 뿐더러 평가 방법도 구체적으로 공개하지 않았다.
보고서에서도 "대규모 언어 모델의 광범위한 기능을 고려할 때 벤치마크의 한계가 있을 수 있다"며 "앞으로 알려지지 않은 피해를 파악하는 조사와 추가적인 개선을 안내하는 평가를 확대할 계획"이라고 언급했다.전혜인기자 hye@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- `롤스로이스남`에 마약 처방하고 환자 성폭행한 의사…징역 17년 선고
- "탈의실서 물건 훔치고 대변까지, 어쩔 수 없었다"…`아줌마 출입금지` 헬스장 관장의 하소연
- "손흥민 다리 부러뜨리자"…선 넘은 중국 유행 짤에 `공분`
- 박세리, 아버지 고소한 이유…"3000억 새만금 사업에 위조서류 제출"
- 지하철 3호선에 거구의 `여장남자`…"여성들만 골라 돈 뜯었다"
- 온누리상품권 부정유통 13곳 적발… 정부, 매월 현장조사 나선다
- 공수 뒤바뀐 여야… 국힘, 1심 선고 앞두고 `이재명 때리기` 집중
- `이사회 2.0` 도입 제시… 최태원 "사후성·평가로 역할 확대"
- 몬스테라 분갈이 네이버에 검색하니 요약에 출처까지… "`AI 브리핑` 검색 길잡이 될 것"
- 10월 금융권 가계대출 6.6兆 늘어… 틀어막았더니 `풍선효과`