단순한 비서를 넘어, 생각하는 파트너가 된 AI 과학자 [이승현의 AI 네이티브]

지난 2월 3일, 구글 리서치가 MIT, 하버드, 카네기멜론 등 세계 유수 대학의 연구진 30여 명과 함께 발표한 '제미나이를 활용한 과학 연구 가속화(Accelerating Scientific Research with Gemini)'는 인공지능(AI)이 실제 과학 난제 해결에 어디까지 기여할 수 있는지 검증한 연구다. 지금까지는 주로 생성형 AI를 지루한 코딩을 대신 짜주거나, 긴 논문을 요약해 주고, 이메일 초안을 잡아주는 '똑똑한 비서' 역할을 하는 '생산성 도구'로 정의해 왔다. 이 연구에서는 AI가 비서의 자리를 넘어, 과학 연구의 가장 깊숙한 심장부인 지적 핵심(Intellectual Core)에 진입했음을 입증하고 있다.
여기서 말하는 '지적 핵심'이란 무엇일까? 단순히 기존 지식을 검색하고 조합하는 것이 아니라, 전문가 수준의 수학적 증명을 해내고, 수십 년간 풀리지 않던 난제(Open Problems)의 반례를 찾아내며, 인간이 상상하지 못한 새로운 알고리즘을 제안하는 발견 또는 발명의 영역을 뜻한다.
"교수님, 이 논문은 틀렸습니다"… 적대적 리뷰어(Adversarial Reviewer)의 등장
가장 인상적인 사례는 고도의 논리적 정합성이 요구되는 암호학(Cryptography) 분야에서 나왔다. 최근 암호학계에서는 'LWE(Learning With Errors) 기반 SNARGs'라는 기술이 화제였다. 획기적인 결과를 주장하는 최신 논문이 발표됐지만 내용이 너무 난해하고 복잡해 인간 리뷰어들이 검증에 난항을 겪고 있었다.
연구진은 제미나이에게 "너는 아주 깐깐하고 비판적인 리뷰어다"라는 페르소나를 부여하고, 이 논문의 허점을 찾도록 지시했다. 이를 적대적 검토(Adversarial Review) 기법이라 하는데, 결과는 놀라웠다. 제미나이는 논문의 정의(Definition)와 구현(Construction) 사이에 존재하는 미묘한 모순을 찾아냈다.
구체적으로 설명하자면, 논문의 '정의 4.1'에서는 '완전 일관성(Perfect Consistency)'을 요구했지만, 실제 '섹션 4.3'의 구현 방식은 확률적인 '통계적 일관성'만 제공하고 있었던 것이다. 인간의 눈으로는 "그게 그거 아니냐"고 넘어갈 수 있는 부분이지만, AI는 이것이 치명적인 보안 결함임을 간파했다. 이 차이로 인해 공격자가 난수(Randomness)를 조작해 위조 증명을 만들 수 있었기 때문이다. 결국 저자들은 이 오류를 인정하고 논문을 철회했다. AI가 인간 전문가도 찾아내기 힘든 논리적 구멍을 메우는 완벽한 동료 검증자(Peer Reviewer)로서의 자질을 증명한 셈이다.
코드를 짜서 수식을 증명하다 … 뉴로-심볼릭 루프
물리학(Physics)분야의 사례는 AI와 인간의 협업이 얼마나 멋진지, 그리고 AI가 어떻게 스스로 오류를 수정하는지를 보여준다. 연구 주제는 '우주 끈(Cosmic String)' 루프에서 방출되는 중력파 파워를 계산하는 것이었다. 핵심이 되는 적분 수식은 특이점(Singularity)과 고주파 진동 때문에 기존의 수치 해석적 방법으로는 풀기가 매우 까다로웠다.
초기 접근법으로 제미나이는 테일러 급수(Taylor series)를 제안했다. 하지만 곧바로 스스로 파이썬 코드를 작성해 시뮬레이션을 돌려보더니, 이 방식이 특정 구간에서 치명적인 수치 오차를 일으킨다는 것을 감지했다. 놀라운 점은 그다음이다. 제미나이는 스스로 "이 방법은 틀렸다"고 판단하고 폐기한 뒤, 대안으로 게겐바우어 다항식(Gegenbauer polynomials)을 기저로 사용하는 획기적인 방식을 제안했다. 가중치 함수를 이용해 분모의 특이점을 상쇄시키는 고등 수학 기법을 찾아낸 것이다. 이를 통해 수치적으로 불안정했던 문제를 우아한 폐쇄형 해(Closed-form solution)로 유도해냈다.
이 과정에서 사용된 기법이 지난주 기고에서 언급한 뉴로-심볼릭 루프(Neuro-Symbolic Loops)다. AI의 '직관(언어 모델)'으로 가설을 세우고, 컴퓨터의 '연산(코드 실행)'으로 검증하며 정답을 찾아가는 방식이다. "내 생각이 맞는지 코드로 돌려봐"라고 스스로에게 명령하고 피드백을 받는 이 구조야말로 환각(Hallucination)을 줄이고 정확성을 높이는 핵심 열쇠다.
"답은 아는데 증명을 못 하겠어"… 바이브 프로빙(Vibe-Proving)
보고서에는 이론 컴퓨터 과학자인 랜스 포트노우(Lance Fortnow) 교수의 흥미로운 일화도 실려 있다. 그는 복잡도 이론의 난제를 해결하고 싶었지만, 엄밀한 수식 증명 과정을 일일이 작성하는 데 피로감을 느끼고 있었다. 랜스 교수는 제미나이가 탑재된 논문 작성 도구(IDE)를 켜고 "답을 아는 것과 찾는 것이 계산적으로 같다는 걸 내 스타일로 증명해 줘"라고 말했다.
이 모호한 지시에 AI는 어떻게 반응했을까? 제미나이는 교수의 의도와 맥락을 파악하고, 단 8번의 대화(Turn) 만에 복잡한 수식 증명과 논리 구조를 스스로 설계해 논문을 완성했다. 교수가 "이 부분은 이미 알려진 사실이니 생략하자"라고 하면 즉시 반영하고, "논리가 비약됐다"고 지적하면 중간 다리를 놓는 보조정리를 추가했다.
안드레이 카파시(Andrej Karpathy)가 주창해 화제가 됐던 바이브 코딩(Vibe-Coding)의 개념이 과학 연구의 영역으로 넘어왔음을 보여주는 결정적 장면이다. 코드를 AI에게 맡기고 인간은 느낌(Vibe)만 조율하듯, 연구진은 이를 증명 과정에 빗대어 바이브 프로빙(Vibe-Proving)이라 불렀다. 연구자가 전체적인 방향성과 영감만 제시하면, AI가 그 사이를 메우는 구체적인 테크닉을 수행하는 것으로, 인간이 기계적인 증명 노동에서 해방되어, 더 높은 차원의 '직관'과 '설계'에 집중할 수 있게 됨을 의미한다.
성공적인 협업을 위한 AI 활용 기법
보고서에서는 단순히 성과를 나열하는 데 그치지 않고, 어떻게 하면 AI에게서 이런 결과를 이끌어낼 수 있는지에 대한 방법론도 상세히 다루고 있다. 여기서 등장하는 기법들은 우리가 AI를 대하는 방식을 근본적으로 바꿔야 함을 시사한다. 그중 두가지만 소개하면 다음과 같다.
첫째, 반복적 프롬프팅(Iterative Prompting)이다. 챗봇에게 한 번에 정답을 요구하는 것은 하수다. 연구진은 AI와 대화하듯 단계를 쪼개어 접근했다. "이 논문을 읽어봐", "이 보조정리만 증명해 봐", "상수가 이상하지 않아?"라며 지속적으로 피드백을 주고받았다.
둘째, 맥락 탈식별화(Context De-Identification)라는 흥미로운 기법도 있다. AI에게 "리만 가설을 풀어줘"라고 하면 "그건 난제라 못 풉니다"라고 거절하거나 교과서적인 답변만 내놓는다. 연구진은 문제의 배경이나 유명한 정리의 이름을 지우고, 순수한 수학적 정의와 조건만으로 문제를 재구성해(Anonymize) 질문했다. 그러자 AI는 편견 없이 문제 자체에만 집중해 새로운 접근법을 내놓았다. AI의 안전장치나 편향을 우회해 순수 지능을 끌어내는 전략이다.
인간 연구자의 역할 변화… 결국 '오케스트라 지휘자'
이러한 변화 속에서 인간 연구자의 역할은 어떻게 재정의되어야 할까? 보고서는 인간이 더 이상 기계적인 도출이나 계산에 매몰될 필요가 없다고 말한다. 대신 우리는 AI라는 천재적인 연주자를 이끄는 오케스트라 지휘자(Orchestrator)이자 감사자(Auditor)가 되어야 한다.
AI는 지치지 않고 수천 개의 아이디어를 쏟아낸다. 그중 유망한 방향을 선별하고(Filtering), AI가 잘못된 길로 빠질 때 방향을 틀어주는(Steering) 통찰력은 여전히 인간의 몫이다. 앞에서 언급했던 것처럼, 보고서에서는 이를 바이브 프로빙(Vibe-proving)이라는 용어로 설명한다. 연구자가 문제의 큰 그림과 방향성(Vibe)을 제시하면, AI가 세부 증명과 코드를 채워 넣는 협업 방식이다.
물론 장밋빛 미래만 있는 것은 아니다. 가장 큰 경계 대상은 확인 편향(Confirmation Bias)과 기술적 환각이다. AI는 기본적으로 사용자의 말에 동조하려는 성향이 있다. 연구자가 틀린 가설을 주며 "증명해"라고 하면, AI는 그럴듯해 보이는(그러나 틀린) 논리를 만들어내 비위를 맞추려 들기 때문에 연구자는 항상 "증명하거나 반박하라"는 식의 중립적인 태도를 유지해야 한다.
보고서는 향후 연구 방향으로 형식 검증(Formal Verification)을 제시한다. 파이썬 코드로 수치를 확인하는 것을 넘어, 린(Lean)이나 코크(Coq) 같은 증명 지원 언어를 통해 수학적 무결성을 기계적으로 검증하는 시스템이 필요하다는 것이다. AI가 쓴 논문을 또 다른 AI가 검증하고, 최종적으로 수학적 컴파일러가 오류 없음을 보증하는 파이프라인이 구축된다면 과학 연구의 속도는 지금과는 비교도 안 될 만큼 빨라질 것이다.
우리는 지금 과학적 발견의 패러다임이 바뀌는 변곡점에 서 있다. 구글의 이번 연구는 AI가 인간의 지적 한계를 확장하는 강력한 도구임을 입증했다. 이제 중요한 것은 "AI가 이것을 할 수 있나?"라는 질문이 아니다. "우리가 AI와 어떻게 협업해야 더 위대한 발견 또는 발명을 할 수 있나?"라는 질문이다.
데이터를 넣으면 결과가 나오는 '자판기'로서의 AI가 아니라, 끊임없이 질문을 주고받으며 생각을 발전시키는 '소크라테스적 대화 상대'로서의 AI. 이것이 이 연구보고서가 보여준 과학 연구의 미래라고 생각한다. 연구자들은 코딩과 단순 계산에서 벗어나 더 본질적이고 창의적인 질문을 던지는 데 집중해야 할 때다. 바야흐로, AI 네이티브 사이언스(AI-Native Science)의 시대가 열리고 있다.
※ 외부필자의 원고는 IT조선의 편집방향과 일치하지 않을 수 있습니다.
이승현 포티투마루 부사장은 스타트업 창업가 출신의 AI 전문가다. 디지털플랫폼정부위원회 인공지능플랫폼혁신국장으로서 재직하면서 대한민국 공공 AI의 초석을 닦았으며, 현재는 법무법인 린의 공공AX 고문을 겸하며 기술과 정책의 가교 역할을 하고 있다. 이론에 머물지 않는 현장형 전략가로서 국가 전반의 AI 네이티브 전환을 이끌고 있다.
Copyright © IT조선. 무단전재 및 재배포 금지.