추론 AI, 생각의 사슬 활용해 수능 킬러 문항 90초 만에 풀어
━
이준기의 빅데이터
인공지능(AI)은 최근 몇 년 동안 놀라운 성장을 이뤘다. 특히 2022년 말 ChatGPT-3.5가 공개된 이후 우리는 새로운 유형의 지능을 경험하게 되었다. 이 경험이 얼마나 강력했는지는 사용자 100만 명에 도달하는 기간을 보면 알 수 있다. 넷플릭스는 3.5년, 트위터는 2년, 페이스북은 10개월, 인스타그램은 2.5개월이 걸렸지만, ChatGPT는 단 5일 만에 100만 명의 사용자를 만들어냈다.
이후 한국과 중국 또는 다른 나라의 빅 테크 기업에서 비슷한 성능의 거대언어모델(LLM)을 선보였다. 이들은 파라미터 수와 학습하는 데이터의 양과 질의 차이가 있었지만, 대체로 비슷한 성능과 결과를 보여주었다. 이런 모델들은 대체로 처음으로 인간과 기계가 대화할 수 있게 만들었다. 하지만 이들은 문장의 단어와 위치를 비교해 기존의 문장에서 가장 그럴듯한 단어를 찾아 확률적으로 문장을 만드는 방법을 사용함에 따라 여러 가지 문제를 노출했다. 여기서는 윤리 문제와 지적 재산권 문제를 제외하고, 개인과 기업에서의 실질적 사용에 있어서의 문제만 살펴보겠다.
그러나 지난 2년 동안 인공지능은 꾸준히 실수를 줄여왔으며 더 강력해졌다. 특히 최근의 생성형 인공지능의 두 가지 진보는 앞으로 인공지능과 그것의 활용에 큰 이정표를 남길 것이라고 생각한다. 하나는 멀티모달 인공지능의 출현이고, 두 번째는 특정 분야에 바탕을 둔 추론형 생성형 인공지능의 출현이다.
먼저 멀티모달 인공지능 모델을 살펴보자. 이 모델은 기존의 텍스트 기반에서 벗어나 이미지, 오디오, 그림, 첨부 파일, 동영상 등 다양한 형태의 데이터를 이해하고 결합하면서 인공지능과 대화하는 기술이다. 이 분야에서 가장 눈에 띄는 모델 중 하나는 OpenAI의 GPT-4o(지피티 포오)다. 여기서 ‘o’는 모든 것을 뜻하는 ‘omni’의 약자이다. 올해 5월에 출시된 GPT-4o는 텍스트와 이미지, 오디오 정보를 동시에 입력받아 처리할 수 있고, 이미지를 설명하거나 질문에 답하는 등의 기능도 제공한다. 특히 시각적 맥락을 결합한 답변을 만들어내는 점과 실시간 대화가 가능한 것은 큰 변화라고 할 수 있다. 기존의 모델이 대화를 텍스트로 변환하고 텍스트 답변을 만든 후 다시 음성으로 제시하는 방식임에 비해 이 모델은 바로 음성 입력을 음성 결과로 처리함에 따라 320밀리초(1밀리초는 1000분의 1초)의 반응 시간으로 인간과의 대화처럼 자연스러운 대화가 가능하다.
멀티모달 AI는 인공지능 분야에서 중요한 진전을 의미한다. 이 기술의 핵심은 다양한 종류의 데이터를 통합하고 이해할 수 있다는 점이다. 전통적인 AI는 단일 데이터 유형에 의존하는 경우가 많았다. 예를 들어, 텍스트 기반 AI는 텍스트만을 처리할 수 있고 이미지 인식 모델은 오직 시각 정보에만 반응했다. 그러나 멀티모달 AI는 여러 형태의 데이터를 동시에 처리하며 이를 상호 연결해 더욱 풍부한 정보를 제공한다.
예를 들어, 뉴욕의 마운트시나이 병원은 멀티모달 AI를 활용해 환자 기록과 의료 영상을 결합하는 프로젝트를 진행하고 있다. 이 시스템은 환자의 진료 기록, 실험실 결과, 그리고 MRI나 X-ray 같은 의료 영상을 종합적으로 분석해 환자의 상태를 더욱 정확하게 평가하고 의사들에게 중요한 진단 정보를 제공한다. 이를 통해 빠르고 정확한 진단이 가능해졌으며 치료 계획 수립의 효율성도 크게 향상되었다.
교육 분야에서도 멀티모달 AI는 학생들의 학습 경험을 혁신하고 있다. 드림박스(DreamBox)와 같은 AI 기반 교육 플랫폼은 학생들의 텍스트 입력과 문제 풀이 과정을 실시간으로 분석하고 그들의 학습 패턴에 맞춘 개인화된 피드백을 제공한다. 또한 이 시스템은 비디오 학습 자료와 시각적 학습 도구를 결합하여 학생들이 더욱 몰입하고 이해하기 쉽게 학습 환경을 만들어준다.
e-커머스 분야에서도 멀티모달 AI는 구매 경험을 개인화하는데 중요한 역할을 하고 있다. 예를 들어, 아마존은 이미지와 텍스트 데이터를 함께 분석하여 고객이 검색하는 제품을 더 정확하게 추천한다. 고객이 상품을 검색할 때 아마존의 AI는 제품 설명, 고객 리뷰, 그리고 관련 이미지들을 결합해 더욱 개인화된 추천을 제공한다. 이는 고객이 원하는 상품을 더 쉽게 찾을 수 있도록 도와주고 구매 전환율을 높이는 데 기여하고 있다.
또 다른 LLM의 발전은 추론 인공지능의 등장이다. LLM을 사용해 본 사람은 느끼겠지만, LLM의 결과는 종종 밋밋하게 느껴질 수 있다. 이는 인간이 쓴 기존의 모든 글을 읽고 표현한 것이기 때문에 우리가 익히 알고 있는 내용을 재현한 것으로 볼 수 있다. 하지만 최근 ChatGPT-o1로 구현된 추론 인공지능은 전문 분야를 학습해 전공 지식이 일반 수준을 뛰어넘는다. 단순하게 전문 분야를 학습한 것이 아니라 인공지능의 ‘생각의 사슬(chain of thought)’이라는 기법이 사용되었다. 이 기법은 복잡한 문제를 여러 단계로 나누어 단계별로 접근하며 답을 내놓는 방식이다. 현재는 몇몇 분야, 예를 들어 수학, 과학, 코딩 등의 영역에 적용되었지만 그 결과는 놀랍다.
기업들 AI 이용하는데 획기적 전기
고등학교 수학 올림피아드 문제에서 기존 GPT-4 모델은 약 13%를 풀었지만, o1 모델은 83%를 맞췄다. 또한 수학, 물리학, 생물학 등 과학 영역에서도 박사급 정확도를 넘는 결과를 보여주었다. 국내 연구에서도 수능의 킬러 문항을 1분 30초 만에 풀어내는 저력을 보여주었다. 가장 인상적이며 활용이 기대되는 분야는 프로그래밍이다. 현재의 LLM은 깃허브(GitHub)와 같은 코딩 데이터베이스를 사용하여 프로그램을 완성하는 단계지만, GPT-o1은 상위 10% 수준의 프로그래밍 능력을 보여주고 있다.
이것은 인공지능이 단순하게 일반적인 인터넷에서 긁어오는 그저 그런 능력을 보여주는 것에서 벗어나, 특정 분야에서 인간 전문가 또는 그 이상의 능력을 보여주고 있다는 것을 의미한다.
혹시 초기 휴대전화 시절 벽돌 모양의 무선통신 기기를 한 달에 거의 100만원씩 내고 사용했던 시기를 기억하는 세대가 있다면, 그때부터 지금의 스마트폰이 되기까지는 결국 시간 문제라는 것을 이해할 것이다. AI는 아직 속도가 느리고, 여전히 환상의 문제를 가지고 있으며, 인터넷 등의 외부 정보를 얻을 수 없다는 단점이 있다. 그러나 조만간 모든 분야에서 최고의 인간 전문가 수준 또는 그 이상의 인공지능이 등장할 것이다.
이 두 가지, 멀티모달과 추론 인공지능은 기업에서 인공지능을 이용하는 데 획기적인 전기를 마련하고 있다. 기업은 기존 자료인 매뉴얼, e메일, 회사 규정 등을 회계 자료 등의 숫자 정보와 합쳐 기업 지식 시스템을 새로 구축할 수 있다. 이런 기업 지식이 전문가 지식 수준의 인공지능으로 구현이 가능해진 지금, 우리는 인공지능 활용의 새로운 영역으로 들어가는 시발점에 서 있는 것이다.
Copyright © 중앙SUNDAY. 무단전재 및 재배포 금지.