가끔 황당한 답변 내놓는 챗GPT, 너무 생각이 많아서? [고평석의 인사이드아웃AI]

지나치게 많은 추론이 오답을 만드는 ‘역스케일링’ 현상
거대언어모델 AI 한계를 극복하기 위한 다양한 대안 제시돼

(시사저널=고평석 (주)엑셈 대표)

"장고 끝에 악수를 둔다." 바둑에서 유래한 표현이다. 여러 수를 내다봐야 하는 바둑의 특성상 바둑을 둘 때 곰곰이 생각을 할 수밖에 없다. 그러나 너무 오래 생각하면 오히려 판을 잘못 읽고 바둑을 망치는 경우가 있다.

비단 바둑뿐만이 아니다. 논어에도 다음과 같은 구절이 있다. '季文子三思而後行(계문자 삼사이후행) 子聞之曰再斯可矣(자문지왈 재사가의)'. 노나라 대부 계문자가 세 번 생각하고 행동을 했다는 말을 듣고 공자는 두 번이면 충분하다고 했다. 세 번이나 생각할 필요 없이 두 번 생각한 후 바로 행동에 옮기면 된다는 의미다. 우리 삶에서 이런저런 생각이 많아 내게 온 좋은 기회를 놓치고 후회하는 일이 종종 있다. 생각할 시간에 행동으로 옮겨야 하는 때가 의외로 많다. 그리고 그 말은 AI에게도 통한다.

"짧은 추론이 긴 추론보다 정확도 높다"

몇 년 전까지 "AI는 학습이 중요하다"고 했다. 제대로 된 지식을 갖추는 게 급선무였기 때문이다. AI의 학습은 학생이 공부하는 것에 비유될 수 있다. 여러 문제 유형을 접하며 자연스럽게 문제 푸는 방법을 익힌다. AI가 빅데이터를 반복적으로 익혀 정답을 찾을 수 있도록 스스로 내부 규칙을 만드는 과정과 같다.

그러나 1년여 전부터 "AI는 학습보다 추론이 더 중요하다"는 말이 나왔다. AI의 추론은 학생이 실제 시험에서 문제를 푸는 것과 비슷하다. 이미 학습한 내용을 바탕으로 새로운 문제가 주어졌을 때 정답을 빠르게 찾는다. 새로운 데이터가 주어졌을 때, 신속히 정확한 답을 제시해야 성능이 좋은 AI다. 아무리 공부를 많이 했어도 시험 문제를 잽싸게 풀지 못하거나 정확한 답을 내놓지 못해 좋은 점수를 받지 못하면 소용없는 것과 같다. 학창 시절 한번 앉으면 일어나지 않아 '돌하르방'이라고 불린 친구는 암기 과목에는 강했지만 수학 성적은 생각보다 좋지 않았다. 아마도 학습에 특화됐지만 추론에 약했던 것 같다.

AI의 학습을 위해서는 거대한 계산 양 때문에 연산, 전력, 메모리 등 거의 모든 성능이 압도적이어야 한다. AI 추론은 학습과는 또 다른 영역이다. 실제 서비스에 활용되기 때문에 하나의 입력에 대한 처리 속도와 전력 효율이 중요하다.

AI의 추론에 대해 흥미로운 연구 결과들이 나오고 있다. 올해 5월 메타가 히브리대학교와 공동 연구를 실시해 발표한 결과에 따르면, 짧은 추론 과정이 긴 추론보다 더 높은 정확도를 보인다고 한다. 같은 질문에 대해 가장 짧은 추론이 가장 긴 추론보다 최대 34.5% 더 정확했다. 이러한 현상이 소수의 AI 모델이 아닌 톱티어 AI 모델을 대상으로 한 테스트에서도 일관되게 나타났다. 즉, 오랜 시간 깊이 생각한다고 해서 반드시 성능을 높이는 게 아니다. 오히려 역효과가 발생했다. 앞서 비유한 대로 추론이 시험 문제를 푸는 것이라면 아리송한 문제에 대해 과하게 생각한다고 정답을 고를 확률이 올라가지 않고 오히려 떨어진다는 의미다.

앤트로픽도 거대언어모델(LLM)에서 '역스케일링' 현상을 발견했다고 밝혔다. 이는 AI가 오래 생각할수록 오히려 성능이 떨어지는 현상이다. 추론 시간이 길어지면 중요하지 않은 정보에 주의를 빼앗기고, 문제에 과하게 몰입해 오답을 내기도 한다. 특히 복잡한 논리 문제에서 이런 경향이 두드러졌다. 기존 학습 데이터에는 정확하지만 새로운 상황에 약한 '과적합'도 이유다. 실제로 복잡한 논리 문제나 수학, 물리 문제를 길게 추론할수록 엉뚱한 답을 내놓기 쉽다. 포레스터의 브랜든 퍼셀 수석연구원은 "AI가 너무 생각하다 생긴 오류일 수 있으며, 이건 버그가 아닌 LLM(거대언어모델)의 본질"이라고 설명했다.

추론 과정이 길어질수록 오히려 성능이 저하되는 것을 막기 위한 여러 대안이 등장했다. 첫째, 프롬프트 엔지니어링으로 극복 가능하다. 생각보다 쉬운 상식적인 방법이다. AI에게 질문을 하거나 지시할 때, 문제 해결 예시나 생각 연결 고리를 함께 제시해 주면 정확도가 올라간다. 이런 질문을 받으면 이러한 추론을 거쳐 이렇게 답을 주면 된다고 AI에게 예를 들어주는 것이다. 또한 말할 때, '어떤 문제에 초점을 맞추어야 하는지'를 AI에게 명확하게 설명해 주면 좋다.

둘째, 동적 실행 기법을 사용하면 효과적이다. 문제 난도가 낮거나 비교적 단순한 데이터의 경우 불필요하거나 복잡한 추론 과정이 필요 없다. 오히려 정답에서 멀어질 수 있다. 입력되는 문제가 비교적 단순한 경우 동적 추론 경로 길이를 조절해 짧게 만드는 과정이 필요하다.

'현명하게 덜 생각하는 설계'도 필요

셋째, AI 에이전트 간 토론을 통해 문제를 해결할 수 있다. 여러 개의 AI 에이전트가 하나의 문제에 대해 각자 해법을 제시한 후 서로의 답을 비판, 수정하면서 토론을 통해 더 정확한 답에 다가갈 수 있다. 마지막에 집계하는 AI 에이전트는 다수결이나 타당성 평가로 최종 답을 결정한다. 이미 이러한 방법들이 다양한 연구와 실습을 거쳐 기업, 대학, 각종 연구기관에서 사용되고 있다. 대다수 사람이 일상 속에서 답을 찾도록 도와주거나 찾아가는 과정에서 사용되는 '인간적' 방법이다.

추론의 숙제는 더 깊은 사고가 아니다. 과잉 사고를 어떻게 줄일지가 중요하다. 물론 "어려운 토큰 구간에는 오히려 연산을 늘려야 전체 성능이 상승한다"는 또 다른 연구 결과가 보여주듯이 사고를 줄인다고 일률적으로 AI 추론 성능이 올라가지는 않는다. 필요에 따라선 사고가 과감히 길어져야 한다. 그 절충점을 찾는 과정이 AI 추론 고도화를 위해 필수다. 즉, 비용과 난도 등을 고려해 상황에 맞추어 현명하게 덜 생각할 필요가 있다. 기술적으로는 그런 방법을 구현해야 한다.

물론 앞서 말한 대로 인문적 통찰과 인간적 접근도 병행되어야 한다. 선생님처럼 명확한 예시를 드는 것, 문제의 난도에 따라 전략을 바꾸는 것, 토론을 통해 정답을 찾아가는 것 모두 의미가 있다. 유용하고 정확한 AI를 위해 공학적·인문적 소양이 총동원되어야 할 때다.

시사저널에서 직접 확인하세요. 해당 언론사로 이동합니다.

경제

가끔 황당한 답변 내놓는 챗GPT, 너무 생각이 많아서? [고평석의 인사이드아웃AI]