IQ 120, GPT-4o1은 웬만한 사람보다 똑똑한 단계에 이르렀다.

날마다 찾아오는 슬로우레터, 추석 연휴 기간에 신문 발행이 안 되는 관계로 오늘은 한상기 테크프론티어 대표의 AI in a Week를 대신 보내드립니다. AI 관련 트렌드와 인사이트를 빠르게 따라 잡으세요.

1. 복잡한 추론이 가능한 오픈AI-o1 공개

지난주 가장 많은 사람이 이야기한 화제 중 하나는 오픈AI의 새로운 LLM인 o1일 것이다. 그동안 ‘스트로베리’라고 불렀던 프로젝트의 결과인데 ‘데이터 효율성이 높은 학습 과정에서 사고 사슬(CoT)을 이용해 생산적으로 사고하는 방법을 가르치는 대규모 강화 학습(RL) 알고리듬을 적용’했다는 게 공식 블로그 내용이다.

이번에 발표한 것은 o1-프리뷰와 o1-미니이며, 유료 사용자는 지금 두 모델을 사용할 수 있다. 오픈AI는 꾸준히 다음 수준의 GPT는 박사급 수준의 지식을 가질 것이라고 선언했는데, 이번 o1을 보면 물리, 생물학, 화학의 수준이 매우 뛰어나며, 가장 인상 깊은 것은 그동안 LLM이 취약한 모습을 보이던 수학 추론의 결과가 상당히 좋아졌다는 점이다.

공식 블로그에 따르면 o1은 사용자에게 응답하기 전에 내부적으로 긴 사고 사슬을 생성해서 대답하기 전에 먼저 생각하는 모델이라고 한다. 기술 사항을 공개하지 않았기 때문에 많은 부분이 불분명하지만, o1의 CoT는 기존 정의와 다를 수 있다고 보는데, 사용자의 입력에 전적으로 의존하지 않고 연속된 생각이 항상 연관성이 있는 건 아니라는 점에서 생각이 순차적으로 생성되지 않을 수 있다.

또한, 아래 인용한 설명을 참고하면, 모델이 막히면 이를 인식하고 전략을 수정할 수 있다는 점을 알 수 있다:

- 강화 학습을 통해 o1은 사고 사슬을 연마하고 사용하는 전략을 개선하는 법을 배웁니다.
실수를 인식하고 수정하는 법을 배웁니다.
- 까다로운 단계를 더 간단한 단계로 세분화하는 법을 배웁니다.
- 현재 접근 방식이 효과가 없을 때 다른 접근 방식을 시도하는 방법을 학습합니다.
Learning to Reason with LLMs | OpenAI, 2024.09.12.

학습 중에는 질문을 세분화하고 최적 경로를 찾는 방법을 학습하는데, 여기에 하위 과제 또는 하위 질문에 점수를 매기는 보상 모델이 포함될 수 있다. 이는 최종 답변을 평가해 다시 업데이트하고 모델이 자기반성을 학습할 수 있다는 걸 의미한다. 추론 중에는 보상 모델을 사용해 각 작업의 예상 점수를 평가해 하위 작업과 답을 병렬로 생성하고 가장 높은 점수를 받은 경로를 최종 출력으로 선택한다.

o1은 GPT-4o의 기본 모델을 기반으로 RL 알고리듬으로 더욱 미세 조정된 반면, o1-미니는 더 작은 모델을 기반으로 하지만 과학적 질문에 더 구체화한다고 추측할 수 있다. 블로그에 따르면, o1-미니는 사전 학습 중에 STEM 추론에 최적화된 더 작은 모델이라고 한다. 평가 결과로 보여준 데이터는 아주 인상적이다.

뛰어난 고등학생을 대상으로 하는 수학 시험(AIME)을 통해 검증한 결과 미국 수학 올림피아드 상위 500위 안에 드는 점수를 보였고, 고난도 과학 시험(GPQA) 다이아몬드 문제에서는 처음으로 인간 전문가 점수보다 높은 점수를 얻었는데, 그렇다고 모든 면에서 박사급을 뛰어넘는다는 건 아니고 박사급 일부 문제를 더 능숙하게 풀어냈다는 의미라고 말한다. 모델의 코딩 실력을 입증하기 위해 코드포시즈(Codeforces)에서 주최하는 경쟁 프로그래밍 대회를 시뮬레이션을 했는데 gpt-4o를 월등히 능가했다.

이 모델이 등장하고 국내에서도 다양한 테스트들이 이루어졌다. 일부 사용자는 숫자 크기도 제대로 판단하지 못한다고 비판했는데, 이는 영어로 하면 아무 문제가 없었다. 기본 학습이 영어를 기준으로 이루어졌기 때문일 수 있다.

디랩 대표인 송영광씨의 페이스북 포스팅에 따르면 o1-프리뷰로 2024년 수능 수학을 풀게 했을 때 30문항 중 28개를 맞췄다고 한다. 92점으로 2등급이지만 아마 o1으로 풀면 100점을 맞출 수 있을 것이라 본다. 다만 o1이 아직 이미지 인식을 못하기 때문에 시험 문제는 4o에서 인식해 텍스트로 변환한 다음 이를 사용했다고 한다.

나는 ‘슈뢰딩거 방정식과 양자 중첩의 관계에 관해 설명해 달라’고 질문했다. o1-프리뷰는 정말 박사급으로 설명했다. 앤스로픽의 클로드에 같은 질문을 했더니 그냥 일반인 대상의 가벼운 설명만 나왔다(두 질문 모두 영어를 사용함).

어제 몇몇 지인과 이에 관한 이야기하면서 얻은 결론은 둘이다. 우선 이 모델은 아마도 MoE(다중 엑스퍼트) 아키텍처를 사용하는 다음 프런티어 모델에서 활용하는 전문가 LLM이 될 것으로 보인다. 그리고 정말 이제 5년 안에 인간 수준의 지능(제한된 의미에서)이 구현되는 것이 아닌가 하는 생각이 든다.

노르웨이 멘사 IQ 테스트에서 새로운 문제를 작성해 IQ 테스트를 한 결과 o1 프리뷰가 120을 넘었다고 한다. 이는 인간 평균을 넘어선 것이고, 다른 모델은 100을 넘지 못했다. 그러나 o1에 물어보면 IQ는 인간 지능의 특정한 인지 능력을 측정하는 것이지 인간 지능의 복잡성과 다양한 측면을 모두 측정하는 방식이 아니기 때문에 이를 인간 지능에 근접했다고 말할 수 없다.

2. 음모론에서 벗어나게 하는 챗봇

‘사이언스’에 발표한 논문을 해설하는 뉴욕타임스 기사. 생성형 AI가 허위 정보를 쉽게 생성하면서 더 많은 음모론이 만연할 것으로 우려했는데, 오히려 사람들이 근거 없는 음모론을 믿지 않도록 매우 효과적으로 설득하는 ‘디벙크 챗봇(DebunkBot)’을 만들어 실험한 결과 잘못된 맹신을 바꾸는데 진전을 보였다는 이야기이다.

코넬 대학교의 심리학 교수인 고든 페니쿡과 아메리칸 대학교의 심리학 조교수인 토마스 코스텔로는 각 사람이 선택한 음모론적 주장에 대해 수많은 정보로 반박할 수 있는 챗봇이 훨씬 더 효과적일 수 있다고 생각했다.

연구진은 전국에서 2,000명 이상의 성인을 모집하여 자신이 믿고 있는 음모에 관해 자세히 설명하고 그 음모를 얼마나 믿는지 0에서 100까지의 척도로 평가하도록 요청했다. 그런 다음 참가자 중 일부는 챗봇과 간단한 토론을 진행했는데, 참가자들은 AI와 대화하고 있다는 사실은 알고 있었지만 토론의 목적이 무엇인지 몰랐다.

참가자들은 자신의 입장을 뒷받침한다고 생각하는 증거를 자유롭게 제시할 수 있었고, 평균 8분 정도 지속되는 세 번의 의견 교환이 끝난 후 자신의 신념에 관해 얼마나 강하게 느꼈는지 다시 평가하니 음모에 관한 지지율이 약 20% 하락해 참가자 4분의 1이 더 이상 음모론을 믿지 않게 되었다고 한다.

그러나 사람들이 현실에서는 자신의 신념을 반증하는 정보와 사실을 찾지 않는다는 점에서 이를 어떻게 재현할 것인가 하는 추가 연구가 필요하다. 저자 중 한 명인 MIT의 계산 사회학자 데이비드 랜드는 봇을 의사 진료실에서 백신 접종에 대한 오해를 해소하는 데 유용하게 사용할 수 있다고 제안했다.

문제는 챗봇이나 생성형 AI에 관한 신뢰가 계속 유지될 수 있을까 하는 점과 AI 정보가 주류 미디어가 세상을 보는 방식대로 학습되어 다양성이 점점 제거되는 세상이 될 수 있다는 우려도 존재한다는 점이다.

3. 차트로 보는 AI 투자와 지출 현황

월스트리트저널(WSJ)이 AI와 관련한 여러 지표를 차트로 제시했다. 각 차트를 보면 다음과 같은 내용이다.

올해 벤처 캐피탈이 투자한 금액의 1/3은 AI 회사에 집행했으며 그 금액은 641억 달러다. 이는 투자 급증기였던 2021년 최고치에 근접할 것 같다.

이에 맞춰 데이터 센터도 많이 늘어나고 있는데, 마이크로소프트는 2020년 초부터 올해까지 데이터 센터를 두 배 이상 늘렸다. 구글은 같은 기간 동안 80% 증가했으며, 오라클은 100개의 데이터 센터를 건설할 계획이다. 미국과 캐나다의 데이터 센터는 2015년 이후 요구 전력량이 9배 가까이 증가했다.

메타는 2024년 말까지 60만 개의 GPU를 보유할 예정이고 일론 머스크의 xAI는 내년 여름까지 30만 개를 보유하기를 희망한다.

7월 AI 관련 신규 채용 공고 수는 작년에 비해 50%가량 증가했다. 반면 전체 기술직 공고 수는 소폭 감소했다.

4. 시리와 알렉사에 대항하는 오픈 소스 AI

중국 과학원 연구진이 메타의 라마 3.1B 인스트럭트 모델을 기반으로 음성 지시를 처리하고 텍스트와 음성을 동시에 생성할 수 있는 디지털 비서 AI를 개발했다. 이를 통해 LLM과 짧은 지연 시간으로(226밀리초) 실시간 음성 상호 작용이 가능하다고 한다.

라마-옴니(LLaMA-Omni)라고 부르는 이 모델 연구 결과는 arXiv에 논문으로 게재했다. 특히 이 모델은 4개의 GPU를 사용해 3일 이내에 학습할 수 있다고 해서 소규모 기업과 연구자들의 관심을 받을 수 있다. 주장하는 바가 사실이면 이는 음성 AI 시스템의 대중화에 크게 기여할 수 있으며 지금까지 빅테크가 선점한 시장에 균열을 가져올 수 있다.

특히 모델과 코드를 모두 오픈소스화 했기 때문에 글로벌 커뮤니티에서 확인하고 개선할 수 있다.

한계로는 아직 영어로만 가능하며 합성 음성을 사용해 최고 수준의 상용 시스템의 자연스러운 품질과는 차이가 날 수 있다. 그럼에도 정교한 음성 AI 시스템을 구축하기 위한 진입 장벽을 낮춤으로써 라마 옴니는 특정 산업, 언어, 문화적 맥락에 맞춘 다양한 애플리케이션의 확산을 꾀할 수 있다.

5. 흥미로운 두 개의 보고서

AI 위험에 대한 국제적 과학평가의 미래

워싱턴 D.C.에 본부를 둔 국제적인 싱크탱크 국제 평화를 위한 카네기재단(Carnegie Endowment for International Peace)와 옥스포드 마틴 스쿨의 AI 거버넌스 이니셔티브가 공동으로 만든 ‘AI 위험에 대한 국제적 학 평가의 미래에 관한 분석 보고서’(The Future of International Scientific Assessments of AI’s Risks)를 발간했다(카네기재단, 8월 27일).

AI 위험 분석과 평가에 대한 국제적 협력의 필요성과 방안을 제시하고 있고, 개별국가가 아니라 국제적 협력이 필요한 여러 가지 이유를 설명하고 있다.

네덜란드의 AI & 알고리듬 위험 보고서

우리나라의 개인정보보호위원회에 해당하는 네덜란드의 개인정보 감독기관 AP(Autoriteit Persoonsgegevens)가 ‘AI 및 알고리듬 위험 보고서'(AI & Algorithmic Risks Report Netherlands) 2024년 여름판(제3판)을 발간했다(네덜란드 AP, 9월 11일).

AP는 2023년 초부터 AI와 알고리듬 사용에 따른 개인정보보호 문제에 주목하면서 정기적으로 AI 및 알고리듬 위험 보고서를 발간하고 있다. 여름호의 부제는 ‘AI의 급속한 성장으로 모두가 경계해야 할 때’이다.

6. 기타 단신들

미국 백악관에서 고위 관료와 AI 기업 경영진이 AI의 에너지 소비 문제에 대응하기 위한 방안을 논의하기로 했다. (CNN, 9월 12일). 여기에는 샘 올트먼, 구글의 루스 포랏, 앤스로픽의 다리오 아모데이, 마이크로소프트 임원이 참석할 예정이다. 미국 정부에서는 에너지 장관, 상무부 장관 등이 참석한다. 골드만삭스에 따르면 AI는 2030년까지 데이터센터의 전력 수요를 160% 급증시킬 것으로 예상한다.

기술 기업들이 데이터 세트에서 누드 이미지 삭제를 통해 유해한 AI 성적 이미지 퇴치를 약속했다(ABC 뉴스, 9월 13일). 어도비, 앤스로픽, 코히어, 마이크로소프트, 오픈AI가 학습 데이터에서 누드 이미지를 자발적으로 제거하겠다고 했다. 이는 문제 있는 딥페이크 이미지 제작을 사전에 방지하고자 하는 캠페인의 일환이다. 오픈 인터넷 저장소인 커먼 크롤(Common Crawl)도 여기에 동참하기로 했다.

기업, 시민사회, 학계도 이미지 기반 성적 학대(IBSA) 방지를 위한 자발적 원칙을 발표했다(민주주의와 기술을 위한 센터, CDT, 9월 12일). 기업으로는 아일로, 범블, 디스코드, 허깅 페이스, 매치 그룹, 메타, 마이크로소프트, 틱톡 등이 참여한다. 원칙은 여기에서 확인할 수 있다.

미스트랄이 첫 번째 멀티모달 모델인 픽스트랄(Pixtral) 12B를 출시했다(테크크런치, 9월 11일). 깃허브와 허깅 페이스에서 다운로드 받을 수 있으며 제한 없는 아파치 2.0 라이센스로 공개했다.

#슬로우뉴스 #지식토스트 #지식토스트_모닝브리핑 #한상기 #AI_in_a_week

슬로우레터를 이메일로 받아볼 수 있습니다. 날마다 아침 7시에 발송합니다.