애플이 AI를 ‘애플 인텔리전스’로 부른 이유 [미라클아이 AI 분석]

저질 콘텐츠 사전 필터링, 품질 높여
사용자 활동 맞춤형 지능형 도구 제공
클라우드·온디바이스 모델 하이브리드
iOS18·i패드OS18·맥OS를 묶어 부른 말

팀 쿡 애플 최고경영자(CEO)가 10일(현지시간) 캘리포니아 쿠퍼티노 애플 캠퍼스에서 열린 ‘세계개발자회의(WWDC) 2024’에서 자체 인공지능(AI) 시스템 ‘애플 인텔리전스’를 비롯한 새 제품을 발표하고 있다. AP연합뉴스

애플은 2024년 세계 개발자 대회에서 ‘애플 인텔리전스’를 전격 발표했다.

애플은 기계 지능에 대한 전통적 표현인 인공지능이라는 표현을 거부했다. 과감히 ‘애플 지능’이라고 강조했다. 구글 제미나이, 오픈AI GPT, 삼성전자 갤럭시AI 등 수많은 빅테크 기업이 자사의 인공지능을 앞세웠다. 하지만 이들은 자신의 AI를 AI로 명명했다. 애플은 달랐다. 애플 인텔리전스가 도대체 무엇인지 미라클아이가 집중 분석해 본다.

애플이 애플의 AI에 대해 애플 인텔리전스라고 명명한 까닭은 iOS 18, i패드OS 18, 맥OS 세콰이어(Sequoia) 등 애플 OS 생태계 깊이 AI를 통합했기 때문으로 보인다. 사용자 일상 작업에 적합하다는 것이 애플의 설명이다. 목표는 있다. 애플은 블로그를 통해 개발 과정에서 텍스트 작성·수정, 알림 우선순위 설정·요약, 가족·친구와 대화를 위한 이미지 생성, 앱 간 상호작용 간소화를 위한 앱 내 액션 수행 등을 최우선 도전과제로 잡았다.

특히 이 과정에서 부족한 대규모 언어 모델(LLM)은 오픈AI와 손을 잡는 방식으로 해결했다. 학습용 칩이 부족한 것도 한목한 것으로 보인다. 즉 개발에서는 오픈AI의 GPT-4o와 같은 다양한 AI 모델을 활용하되, 이를 애플이 아우르겟다는 것이 애플 인텔리전스의 개념인 것이다. 실제로 애플은 향후 구글 등과도 협업을 할 수 있다고 문을 열어 놓은 상태다. 애플 인텔리전스가 특정 AI 모델이 아니라는 설명이다.

30억 파라미터 sLLM과 오픈AI GPT-4o

애플 연례 세계개발자회의에서 발표 내용을 청취하는 샘 올트먼 오픈AI CEO.

작동법은 크게 두개다. 약 30억 개 파라미터의 온디바이스 언어 모델과 애플 실리콘 서버에서 실행되는 프라이빗 클라우드 컴퓨트 기반 대형 서버 언어 모델이다. 온디바이스는 스마트폰 단위에서 구동되는 것을 가리킨다. 별도 인터넷 연결 없이도 작동되는 모델이다. 반면 라우드 컴퓨트 기반 대형 서버 언어 모델은 일반적 LLM이다.

애플은 클라우드 컴퓨트 기반의 대형 서버 언어 모델이 무엇인지 특정하지는 않았다. 하지만, 오픈AI와 협업한 것을 알려진 사실이다. 공개된 내용은 전혀 없다. 하지만 오픈AI GPT 시리즈가 마이크로소프트 애저에서 구동되는 것과 같은 방식아닐까 추정해 본다. 애플용으로 학습이 끝난 알고리즘을 이전할 것으로 추정이 된다. 이런 경우 학습용 GPU가 필요가 업다. 또 애플 클라우드를 통해 애플 사용자에게 배포되기 때문에 보안이 뛰어나다.

애플은 애플 인텔리전스에 대해 “통합 개발 환경(IDE)인 엑스코드(Xcode) 인텔리전스를 추가하기 위한 코딩 모델, 메시지 앱에서 사용자가 자신을 표현할 수 있도록 돕는 확산 모델 등 애플이 사용자와 개발자를 지원하기 위해 만든 더 큰 생성형 모델 그룹의 일부”라고 표현했다. 애플이 설명한 애플 인텔리전스가 추구하는 방향은 아래와 같다.

사용자에게 지능형 도구 제공: AI를 책임감 있게 사용하여 특정 사용자 요구를 해결하기 위한 도구를 만들 수 있는 영역을 식별한다. 사용자가 이러한 도구를 목표를 달성하기 위해 어떻게 사용하는지 존중한다.
사용자를 대표: 애플은 전 세계 사용자를 진정성 있게 대표하는 깊이 있는 개인 제품을 만들고자 한다. 애플은 AI 도구와 모델에서 고정관념과 체계적 편견을 지속적으로 벗어나기 위해 노력한다.
신중하게 설계: 애플은 설계, 모델 훈련, 기능 개발, 품질 평가 등 모든 단계에서 AI 도구가 오용되거나 잠재적 피해를 초래할 수 있는 방법을 식별하기 위한 예방 조치를 취한다. 사용자 피드백을 통해 AI 도구를 지속적이고 적극적으로 개선할 것이다.
프라이버시 보호: 애플은 강력한 온디바이스 처리와 프라이빗 클라우드 컴퓨트와 같은 혁신적인 인프라를 통해 사용자의 프라이버시를 보호한다. 우리의 기반 모델을 훈련할 때 사용자의 개인 데이터나 사용자 상호작용을 사용하지 않는다.

폐쇄형 생태계에서 개방형 생태계로 “AI만큼은 열겠다”

애플은 생태계가 폐쇄형이나, AI만큼은 오픈소스로 추진했다. 이번 애플 인텔리전스도 마찬가지다. 애플은 작년 오픈소스 프로젝트 에이엑스런(AXLearn) 프레임워크를 발표한 바 있다. 에이엑스런은 구글에서 개발한 파이선 라이브러리 중 하나인 JAX와, 역시 구글에서 개발한 컴파일러인 XLA(Accelerated Linear Algebra)를 기반으로 구축됐다. JAX는 자동 미분, 고성능 연산, 함수 변환에 특화된 라이브러리로 그래픽처리장치(GPU)와 텐서프로세싱유닛(TPU)에서 효율적으로 작동할 수 있도록 설계된 것이 특징이다. 또 XLA 컴파일러는 중앙처리장치(CPU), GPU, TPU와 같은 다양한 하드웨어에서 효율적으로 작동하도록 설계됐다.

애플이 구글이 추진했던 오픈소스 프로젝트에 올라 탄 대목이다. 애플은 구글이 만든 생태계 일부를 활용, AI 모델을 빠르게 학습시키고, 다양한 환경에서 최적 성능을 발휘할 수 있도록 만든 것이다.

애플은 어떤 데이터를 모아서 모델을 훈련시켰을까. 애플에 따르면, 라이선스 데이터와 애플의 웹 크롤러인 애플봇(AppleBot)이 수집한 공개 데이터를 사용해 훈련했다. 또 웹 퍼블리셔들은 애플 인텔리전스 훈련을 위한 웹 콘텐츠 사용을 옵트아웃(Opt-out)할 수 있는 데이터 사용 제어 옵션을 제공받을 것이라고 애플은 설명했다. 애플도 구글이나 오픈AI처럼 외부 데이터를 수집해 AI를 학습시켰다는 뜻이다. 다만 애플이 폐쇄형이다보니, 라이선스 데이터는 상당할 것으로 추정해 본다.

다만 여기서 다른 점이 있다. 애플은 모델을 훈련할 때 사용자의 개인 데이터를 절대 사용하지 않는다고 강조했다. 애플봇이 긁어온 데이터를 그냥 사용하지 않고 개인 식별 정보를 제거하기 위한 필터를 적용했다는 것이다. 또 저질 콘텐츠가 훈련 코퍼스에 포함되지 않도록 욕설·저질 콘텐츠를 필터해 학습했다고 말했다. 일반적으로 모델을 만들고 난 뒤 필터를 붙여 악성 생성을 차단하는 것과 달리, 학습전에 필터를 먼저 붙였다는 설명이다. 이는 두가지 효과를 기대할 수 있다. 오픈AI GPT는 앞서 레드팀의 발산공격으로 인해 개인정보를 줄줄이 토해낸 적이 있는데, 이러한 문제점을 사전에 차단하겠다는 뜻이다. 다만 필터가 얼마나 효과가 있을지는 올해 9월 애플 AI가 나온 뒤 지켜봐야 한다. 개인정보가 꼭 사회보장번호나 주민번호 등만 있는 것은 아니다.

하이브리드 데이터 전략으로 품질 개선

애플이 주장한 애플 AI의 우수성. 사용자 대상 평가에서 구글 MS보다 우수하다고 강조했다.

데이터 품질은 하이브리드 데이터 전략으로 높였다. 특히 인간 피드백 데이터와 합성데이터를 적절히 결합했다. 상당한 노동력을 투입한 대목이다.

또 사후 학습에는 모델이 잘못 예측한 샘플을 다시 훈련 데이터에 포함시켰고 교사위원회 등 여러 전문가 의견을 종합해 데이터의 품질을 평가했다. 아울러 사람들이 AI의 결과를 보고 피드백을 주면, AI가 그 피드백을 바탕으로 더 똑똑해지도록 학습하는 인간 피드백 강화 학습(RLHF)과 특정 행동이 AI의 성능에 어떤 영향을 미치는지 평가하는 도구인 단일 제외 이점 추정기(a leave-one-out advantage estimator), 여러 번 시도해서 최적의 결정을 찾아내는 미러 디센트 정책 최적화(mirror descent policy optimization ) 등을 적극 활용했다.

모델 성능 향상에도 상당한 공을 들였다. 기기 및 서버 모델 모두 그룹화 쿼리 어텐션(grouped-query-attention)을 사용한것이 대표적이다. 해당 어텐션 기법은 마치 도서관에서 필요한 책을 빠르게 찾을 수 있도록 책을 그룹별로 정리하는 것과 비슷한 원리다. 또 메모리 요구 사항과 추론 비용을 줄이기 위해 입력 및 출력 어휘 임베딩 테이블을 공유했다. 이 공유 임베딩 텐서는 중복 없이 매핑된다. 마치 한 쌍의 신발을 공유해 사용하는 것처럼, 중복 없이 정보를 저장해 공간을 절약하는 것과 유사하다.

온디바이스 모델은 4만9000개의 어휘 토큰을 사용했다. 서버 모델은 10만 개의 어휘 토큰을 사용하며, 여기에는 추가적인 언어 및 기술 토큰이 포함됐다. 이를 토대로 다양한 언어와 기술 용어를 처리할 수 있다. 기기 추론을 위해 저비트 팔레타이제이션(low-bit palletization)이라는 최적화 기술을 사용했다. 이를 통해 필요한 메모리, 전력 및 성능 요구 사항을 충족했다. 스마트폰에서 AI가 작동할 때 필요한 메모리와 전력을 줄이기 위해 데이터를 작게 만들어 사용하는 방법이다.

모델 품질을 유지하기 위해 대형 언어 모델을 더 작고 효율적으로 만들기 위한 방법인 LoRA(Low-Rank Adaptation of Large Language Models) 어댑터를 채택했다. 2비트와 4비트 혼합 구성 전략을 통해 평균 3.5비트 퍼 웨이트(bits-per-weight)로 압축되지 않은 모델과 동일한 정확성을 달성했다. 데이터 크기는 줄였지만 정확도는 줄어들지 않았다는 설명이다. 아울러 비트율 선택을 더 잘 안내하기 위해 상호작용 모델 지연 및 전력 분석 도구인 탈라리아(Talaria)를 사용햇다. 아울러 활성화 양자화 및 임베딩 양자화를 활용했으며, 뉴럴 엔진에서 효율적인 키-값(KV) 캐시 업데이트를 가능하게 하는 접근 방식을 개발했다. AI가 더 빨리 작동하도록 데이터를 효율적으로 저장하고 업데이트하는 방법을 찾은 것이다.

GPT-4보다는 빠르고 GPT-4o보다는 느린 속도

애플은 “아이폰 15 프로에서 프롬프트 토큰당 첫 토큰 지연 시간이 약 0.6밀리초, 초당 30개의 토큰 생성 속도를 달성했다”고 말했다. 다만 초당 30개는 GPT-4에 비해서는 빠르고 GPT-4o에 비해서는 느린 속도다. 파인튜닝 방식도 크게 개선했다. 사전에 학습된 큰 모델에 작은 어댑터라는 추가 모듈을 끼워 넣는 방식인 신경망 모듈인 어댑터를 활용했다. 주의 매트릭스, 주의 투영 매트릭스, 점진적 피드포워드 네트워크를 활용했다. 기본 모델은 건드리지 않고 어댑터만 조정하는 방식으로, 특정 작업에 맞게 성능을 높인 것이다.

어댑터의 매개변수는 16비트 크기로 저장했다. 이는 데이터를 더 작고 효율적으로 저장할 수 있음을 가리킨다. 또 모델은 약 30억 개의 파라미터를 갖고 있다. 아울러 ‘랭크 16 어댑터’는 특정 구조를 가진 어댑터로, 중간 정도의 복잡성을 가지고 있다. 이 어댑터를 저장하고 작동시키기 위해서는 보통 수십 메가바이트의 메모리가 필요하다는 것이 애플의 설명이다. 어댑터 모델은 동적으로 로드돼 메모리에 임시로 캐시되고 교체될 수 있다. 작업에 실시간으로 특화되는 동안 메모리를 효율적으로 관리하고 운영 체제의 응답성을 보장하는 방식이다.

애플은 해당 모델을 평가했다. “제품별 요약 평가를 위해 각각의 사용 사례에 신중하게 샘플링한 750개의 응답 세트를 사용했다”고 말했다. 애플이 다른 사람 설문을 통해 평가했다는 것이다. 애플의 주장이다.

이메일 요약 기능의 만족도 점수

좋은 결과 비율: Phi-3-mini: 73.3%, 애플 온디바이스 + 어댑터: 87.5%
나쁜 결과 비율: Phi-3-mini: 15.7%, 애플 온디바이스 + 어댑터: 5.4%

알림 요약 기능의 만족도 점수

좋은 결과 비율: Phi-3-mini: 76.6%, 애플 온디바이스 + 어댑터: 79.7%
나쁜 결과 비율: Phi-3-mini: 8.2%, 애플 온디바이스 + 어댑터: 8.1%

애플 온디바이스 모델 대결

Gemma-2B: 승 62.0%, 무 21.3%, 패 16.7%
Mistral-7B: 승 46.1%, 무 26.0%, 패 27.9%
Phi-3-mini: 승 43.0%, 무 24.6%, 패 32.4%
Gemma-7B: 승 41.6%, 무 27.8%, 패 30.6%

애플 서버 모델 대결

DBRX-Instruct: 승 54.5%, 무 21.4%, 패 24.1%
GPT-3.5-Turbo: 승 50.0%, 무 25.3%, 패 24.7%
Mixtral-8x22B: 승 44.7%, 무 27.6%, 패 27.7%
GPT-4-Turbo: 승 28.5%, 무 29.8%, 패 41.7

이 기사에 대해 어떻게 생각하시나요?

매일경제에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

애플이 AI를 ‘애플 인텔리전스’로 부른 이유 [미라클아이 AI 분석]