투자 시장에 뛰어든 수많은 개인들은 이제 증권사 리포트나 전문가 코멘트 대신 생성형 인공지능 모델에게 종목 추천을 묻는다. 챗GPT와 제미나이 같은 대형 언어 모델이 투자 조언을 해주는 시대가 이미 현실이 됐기 때문이다. 그런데 놀라운 현상이 포착됐다. 같은 질문을 같은 방식으로 던졌는데 챗GPT는 매도 의견을 제미나이는 매수 의견을 준다는 정반대의 결과가 나타난 것이다. 도대체 왜 이런 일이 벌어지는 것일까.
이 질문에 대해 UNIST 산업공학과 이용재 교수는 명확한 해석과 실험 결과를 들고 나타났다. 그는 미국 S&P500 기업들을 대상으로 GPT, 제미나이, 라마, 딥시크, 미스트랄, 코엔 등 주요 LLM 모델들의 투자 편향성을 분석한 논문을 지난해 말 발표했다. 연구는 단순한 호기심을 넘어서 실제 금융 현장에서의 활용 가능성과 리스크까지 함께 짚어보는 시도였다.
연구의 출발점은 단순했다. 왜 사람들은 인공지능에게 주식 종목을 물어보는가. 왜 친구의 연애 상담은 물론 투자 결정을 내리기까지 AI의 입을 빌리는가. 이미 AI가 사람처럼 친근하게 반응하고 다양한 데이터를 기반으로 '그럴듯한' 의견을 제시하기 때문이다. 투자에 관심이 있는 사람이라면 누구나 ‘이 뉴스를 보고 어떤 종목을 사야 할까’라는 고민을 한다. 여기에 AI는 속도감 있게 답을 준다.
문제는 이 답이 모델마다 너무 다르다는 것이다. 이용재 교수는 이를 “모델마다 편향이 있다”고 정의했다. 사람마다 성향이 다르듯 AI 모델마다 학습 데이터와 알고리즘이 달라서 어떤 종목에 대해서는 확신을 보이고 어떤 종목에 대해서는 주저하는 식의 차이를 보인다는 것이다.
예를 들어 GPT는 같은 프롬프트를 던졌을 때 종종 중립적인 태도를 보인다. 특정 섹터를 강하게 밀지도 않고 반대하지도 않는다. 반면 딥시크나 라마 같은 모델은 대부분의 섹터에 대해 매수 의견을 고수한다. 딥시크는 90% 가까운 종목에 대해 ‘사야 한다’고 응답했으며 라마 또한 거의 모든 섹터에서 긍정적인 의견을 보였다.
흥미로운 점은 GPT조차 버전이 바뀔수록 편향의 강도가 달라진다는 것이다. GPT 4.1은 비교적 중립적인 반응을 보였지만 5.1이나 5.2로 넘어가면 특정 섹터에 대해 더 강한 견해를 보이기도 했다. 이용재 교수는 이를 "같은 회사의 제품이지만 다른 성격을 가진 투자자처럼 행동한다"고 분석했다.
이 차이는 단순한 개성의 문제가 아니다. 금융회사나 자산운용사들이 실제로 LLM을 투자 모델에 적용할 때 어떤 모델을 선택하느냐에 따라 투자 전략의 방향이 전혀 달라질 수 있음을 의미한다. 예컨대 한 금융사가 AI 모델을 기반으로 섹터 ETF를 자동으로 리밸런싱하는 시스템을 구축한다고 가정하자. 여기에 사용되는 LLM이 라마라면 포트폴리오의 주식 비중은 대부분 높게 유지될 것이고 GPT를 사용한다면 좀 더 방어적인 구성이 될 가능성이 높다. 이처럼 모델 선택 자체가 전략적 리스크로 연결될 수 있다는 점에서 학계뿐 아니라 해지펀드와 블룸버그 같은 글로벌 금융기관들이 이 연구에 깊은 관심을 보인 이유다.
또 하나 흥미로운 결과는 ‘고집’의 차이다. LLM에게 상반된 정보, 긍정적 뉴스와 부정적 뉴스를 동시에 던졌을 때 어떤 모델은 자신이 원래 가지고 있던 판단을 쉽게 바꾸지 않았고 어떤 모델은 새로운 정보를 반영해 태도를 수정했다. 예를 들어 GPT는 반대 정보가 많아질수록 의견을 바꾸는 유연한 성향을 보였지만 라마나 딥시크는 정보가 바뀌어도 기존 의견을 고수하는 ‘고집스러운’ 특성을 보였다. 이용재 교수는 이를 "AI 모델의 MBTI처럼 이해할 수 있다"고 말했다. 실제로 어떤 투자자들은 뚝심 있는 전략을 선호하고 어떤 투자자들은 시장 상황에 따라 유연하게 포지션을 바꾸기를 원한다. 이 성향의 차이까지 모델이 구현하고 있다는 점은 AI의 놀라운 진화이자 동시에 경계해야 할 지점이다.
모델이 보이는 이러한 차이는 무엇에서 비롯되는 것일까. 이용재 교수는 학습 데이터의 구성, 모델 구조, 추론 알고리즘 등 다양한 요소가 영향을 준다고 설명했다. 예를 들어 GPT는 미국 도시의 위도 경도를 정확하게 맞추지만 중국 도시의 경우 정확도가 떨어진다. 반대로 중국에서 개발된 딥시크 모델은 중국 지리에 대해 놀라울 정도로 정확한 답을 내놓는다. 이는 곧 특정 국가나 섹터에 대한 학습량 차이에서 비롯된 편향일 수 있으며 금융 투자 분야에서도 특정 국가나 산업에 대해 더 낙관적이거나 비관적인 의견을 만들 수 있는 근거가 된다. 실제 연구에 따르면 GPT는 중국 주식에 대해 긍정적인 편이었지만 중국 뉴스를 더 많이 주입하자 오히려 부정적으로 반응을 바꾸는 경향도 나타났다. 이는 모델의 편향이 고정된 것이 아니라 주어진 정보에 따라 충분히 바뀔 수 있다는 점을 보여준다.
그렇다면 우리는 이 모델들을 어떻게 활용해야 할까. 이용재 교수는 한마디로 정리했다. "AI 모델은 결정권자가 아니다. 조언자일 뿐이다." 즉 GPT든 제미나이든 딥세크든 이들의 답변은 참고 자료이지 절대적 지침이 되어서는 안 된다는 것이다. 그는 프롬프트 설계의 중요성을 강조했다. 단순히 ‘이 종목 살까’가 아니라, 어떤 정보들을 주고 어떤 시나리오에 대해 어떻게 판단하느냐를 묻는 방식으로 질문을 해야 좀 더 유의미한 답을 얻을 수 있다고 조언했다. 또 복수의 모델을 동시에 활용해 각자의 답변을 종합해 판단하는 것도 좋은 전략이 될 수 있다고 덧붙였다. 실제로 일부 개인 투자자들은 제미나이와 GPT에 각각 질문을 던진 뒤 서로의 답변을 상대 모델에게 전달하고 다시 반응을 묻는 방식으로 ‘모델 간 토론’을 유도하는 방식으로 활용하고 있다.
마지막으로 이용재 교수는 AI를 이용한 투자에 있어 가장 중요한 것은 정보의 질이라고 강조했다. 현재 대부분의 LLM은 최신 뉴스에 대한 접근성이 제한적이고 설령 뉴스 검색을 통해 정보를 보충한다 하더라도 그 정보가 과장되거나 부정확할 수 있다는 점에서 주의가 필요하다는 것이다. 따라서 공시자료나 신뢰 가능한 리포트를 기반으로 데이터를 설계하고 AI는 이를 정리하고 요약해주는 ‘서브 어드바이저’로 활용해야 진짜 의미 있는 결과를 얻을 수 있다.
결국 챗GPT와 제미나이는 각각 고유한 개성과 성향을 가진 조언자일 뿐이다. 누구는 낙관주의자이고 누구는 회의주의자다. 누구는 유연하게 사고하고 누구는 고집을 부린다. 이들 중 누가 옳다고 말할 수 없다. 다만 중요한 것은 질문자 자신이 어떤 목적과 전략을 가지고 이들을 활용하느냐이다. AI는 결코 만능의 투자자문가가 될 수 없다. 하지만 충분한 정보와 신중한 질문 그리고 균형 잡힌 해석을 더한다면, 인류 역사상 가장 강력한 조언자가 될 수는 있다.