회의록 작성 AI, 누가 제일 잘 하나 [김태권·신호철의 ‘AI 비교 리뷰’]

AI ‘덕후’ 김태권 작가와 신호철 편집위원이 연재하는 본격 ‘AI 비교 리뷰’. 언제 어디에서 무슨 작업에 ‘어떤’ AI를 활용하는 게 가장 똑똑한 선택일지, 직접 사용해보고 그 비교기를 전한다.

직장인이라면 누구나 공감할 이야기. 회의는 귀찮지만 회의 내용을 요약 정리하는 건 더 귀찮다. 회의 내용을 녹취해 글자로 풀어주는 어플이 있긴 하지만, 여러 사람이 대화하는 경우 누가 한 말인지 구별하기 쉽지 않다. 한 시간 넘는 대화를 요약하는 것도 간단치 않다.

AI를 쓰면 되지 않냐고? 맞다. 하지만 워낙 인공지능 서비스가 다양해 뭘 골라야 할지 망설여진다. 현재 존재하는 인공지능 중 가장 회의록 작성 잘해주는 모델은 뭘까? 〈시사IN〉의 ‘AI 비교 리뷰’ 연재, 그 첫 번째 주제는 바로 ‘회의록 작성’이다. 결론만 말하자면, 2025년 4월 기준으로 녹취 요약 정리는 구글의 제미나이 2.5 프로를 추천한다.

필자는 여러 인공지능의 녹취 요약 능력을 비교하기 위해 아래와 같은 방법을 썼다.

1단계: 회의 내용을 녹음해 MP3 같은 음성 파일을 만든다.

2단계: 녹음된 파일을 바탕으로 녹취록 문서를 만든다.

3단계: 인공지능을 이용해 녹취록 내용을 요약 정리한다.

4단계: 사람이 최종 검수한다. 회의록이 완성된다.

위의 네 단계 가운데 2단계 ‘녹취’와 3단계 ‘정리’를 인공지능이 맡겨봤다.

☞인공지능으로 회의록 만들기

1단계: 회의 내용을 녹음하기

2단계: 녹음한 파일을 인공지능으로 녹취하기(STT)

3단계: 녹취한 파일을 인공지능으로 요약, 정리하기

4단계: 녹취와 요약이 제대로 됐는지 인간이 검수하기

자연스러운 테스트를 위해 한 시간이 넘는 회의 또는 대담 음성이 필요했다. 필자는 〈시사IN〉 유튜브 ‘김은지의 뉴스IN’ 가운데 지난해 10월23일 ‘정치 풀악셀’ 방송분을 요약 대상으로 삼았다. 대화 참여자가 네 사람인 데에다 길이도 한 시간에 가까워 AI 성능을 테스트하는 데 적절했다.

AI 회의록 작성 테스트를 위해 2024년 10월23일 ‘김은지의 뉴스IN’ 방송분 음성을 이용했다. ⓒ시사IN 유튜브 화면 캡처

클로바노트로 녹취록 만들기

음성 파일을 텍스트 문서 파일로 만드는 작업을 STT(Speech-to-Text)라고 한다. STT를 해주는 인공지능 서비스는 여럿 출시돼 있다. 구글의 NotebookLM이라든지 OpenAI의 Whisper가 좋은 예다. 하지만 이런 서비스들은 일반인이 간단히 사용하기 어렵다. 가장 손쉬운 방법으로 네이버의 ‘클로바노트’ 어플을 추천한다. 국산 인공지능이라 한국어 녹취 서비스에 마침맞다. 녹음과 녹취를 한 번에 진행할 수 있을 뿐만 아니라, 음성 파일(mp3)을 업로드해 문서화시키는 것도 가능하다. 필자는 클로바노트에 위 유튜브 방송 내용이 담긴 음성 파일을 업로드해보았다.

클로바노트는 꽤 쓸만했다. 특히 목소리 차이에 따라 대화 참석자를 구별해줬다. 하지만 등장인물을 정확히 구분하는 데는 실패했다. 해당 유튜브의 참석자는 김은지 기자, 김종대 전 의원, 박관천 전 행정관, 노영희 변호사 등 총 4명이었으나 클로버노트는 6명이 대화를 한 것으로 녹취했다. 말이 짧거나 목소리가 불분명한 경우 정밀히 구별하지 못하는 한계가 있었다. 토종 AI인데 아쉽다. 회의 전체 내용을 읽고 맥락을 이해해 대화 참가자를 정확히 맞히고, 짧게 요약까지 하려면 클로버노트 이상의 인공지능이 필요하다.

회의록 완성 능력 비교를 위해 요즘 가장 성능이 좋다는 해외의 네 모델을 사용하기로 했다.

○챗지피티 o3 (o3-mini-high): 추론 능력이 뛰어난 오픈AI의 인공지능이다.

○챗지피티 4.5: 역시 오픈AI 인공지능으로 o3 계열과 달리 글쓰기에 특화되었다. o3 계열이 이과 성향라면 챗지피티는 4.5는 문과성향이라는 평가다. 요샛말로 (MBTI)의 T와 F 차이인데 어느 쪽이 회의록 요약의 강자인지 궁금했다.

○클로드 3.7 소네트(Sonnet): 앤스로픽에서 만든 인공지능 중 가장 최신 버전이다.

○제미나이 2.5 프로: 구글에서 만든 인공지능이다. 실험판인 3월25일 업데이트 버전을 이용했다.

한편 한 달 이용료가 무려 200달러에 달하는 오픈AI의 챗지피티 o1-pro는 이번 테스트에서 제외했다. 비싼 이용료도 문제지만 o1-pro는 문서파일을 직접 입력할 수 없다는 단점이 있었다.

테스트 1: 회의록만 읽고 참석자 이름 맞히기

클로바노트를 통해 얻은 녹취록에는 대화 참가자가 참석자 1, 참석자 2 등의 숫자로 적혀있을 뿐, 이름이 적시되진 않았다. 과연 AI는 전체 맥락을 보고 이름을 맞힐 수 있을까? 네 인공지능 각각에 녹취록을 통째로 입력하고, 다음과 같이 물었다.

“맥락을 분석해 참석자 1, 2, 3, 4의 이름을 추론해줘.

결과는 뜻밖이었다.

○제미나이 2.5 프로는 참석자 전원의 이름을 맞혔을 뿐만 아니라, 참석자 5와 참석자 6의 이름이 박관천(전 청와대 행정관)이라고 짐작했다. 음성 파일의 목소리를 듣지 않고 텍스트 파일의 문서만 보고 추론한 것이다. 놀라운 것은 1시간 대화의 총 참여자가 네 명이라는 사실을 알려주지 않았는데도 제미나이 2.5 프로는 녹취록에 나온 참석자 5와 6이 잘못 구분된 이름이라는 걸 간파했다는 점이다.

○클로드 3.7 소네트 역시 참석자의 이름을 추론해냈다.

○챗지피티 4.5는 참석자 네 사람의 이름을 추론하긴 하였으나 자신 있게 대답하지는 못했다.

○클로드 3.7 소네트와 챗지피티 4.5 둘 모두 참석자 5와 6의 정체에 대해서는 자신 있는 답을 내놓지는 못했다.

○챗지피티 o3은 아쉬웠다. 기본적인 참석자 네 사람 이름을 헛갈렸다.

테스트 2: 녹취록 요약

다음으로 각각의 인공지능에게 이렇게 프롬프트를 넣었다.

“각 인물이 하는 주장을 정리하고, 회의의 흐름에 따라 참석자가 각자 하는 이야기 주제가 어떻게 흘러가는지도 정리해줘. 전체 요약도 부탁해.”

3가지 과제를 한 번에 요청한 것이다.

첫 번째 과제인 각 인물별 주장 요약은 제미나이와 클로드가 제일 잘했다. 챗지피티 o3는 인물과 주장을 엉뚱하게 연결시키는 오류를 보였다. 클로바노트는 인물별 주장을 요악하지 않았다.

두 번째 과제인 회의의 흐름에 따라 주제가 어떻게 변화하는지 역시 제미나이와 클로드가 잘 짚어냈다. 제미나이는 한 시간 이야기한 방송 내용을 7단계로 나누어 정리했고, 클로드는 10단계로 세분화하여 정리했다. 7단계면 잘 정리한 편이다. 10단계는 어떤 경우에는 유용하겠으나 상황에 따라 지나치다 싶을 수 있다. 한편 챗지피티 4.5는 4단계, 챗지피티 o3는 5단계로 정리했다. 한 시간 내용으로 여러 주제가 있는데도 단순히 4~5단계로 파악한 것은 아쉽다.

세 번째 과제인 전체 요약 역시 제미나이와 클로드가 좋은 결과를 내놓았다. 예를 들어 제미나이 2.5프로는 요약문에서 “결론적으로, 참석자들은 강혜경 씨의 폭로와 그로 인해 촉발된 논란의 진실 규명이 중요하며, 이 과정에서 검찰 수사의 공정성 확보와 비선실세의 국정 개입 의혹에 대한 철저한 조사가 필요하다는 데 공감대를 형성했다. 또한, 현 상황을 정치 권력 주변의 비정상적인 행태와 소통 방식의 문제로 진단하며 비판적인 시각을 유지했다”라고 정리했다. 실제 유튜브 내용과 맞아떨어졌다. 챗지피티 4.5 역시 괜찮은 요약이었다.

한편 국산 인공지능 클로바노트는 단락별 요약 기능이 있긴 하지만, 주제의 흐름을 정확하게 짚어주는 분석이라기보다 키워드를 정리해주는 정도다. 즉 전체적인 요약을 내놓는 대신, 키워드 중심으로 ‘주요 주제’와 ‘다음 할 일’을 제시한다.

또 비교 대상에 정식으로 포함하진 않았지만 챗지피티의 o1-pro의 경우 녹취록의 텍스트를 복사해 프롬프트 창에 넣는 방식으로 비슷한 테스트 시도를 해보았다. 결과는 제미나이2.5프로와 비슷했다. 월 200달러라는 가격을 생각하면 굳이 o1-pro를 쓸 필요는 없어 보였다.

챗지피티-4o에게 주문해 그린 ‘회의록 작성’ 비교 그림. 제미나이2.5프로가 녹취 요약 기능이 제일 좋았다. ⓒ챗지피티-4o 생성 이미지

테스트 결과를 정리하면 이렇다.

☞인공지능을 이용해 회의록 작성하기

(1) 녹음한 음성 파일을 클로바노트를 이용해 녹취

(2) 제미나이나 클로드를 이용해 발언자 파악

(3) 제미나이나 클로드를 이용해 회의 내용 정리.

제미나이와 클로드 둘 중 하나를 굳이 고르라면 제미나이2.5프로를 추천한다.

그리고 재미있는 실험

필자는 여기에 한 가지 실험을 덧붙였다. “각각의 인공지능끼리 서로를 평가하면 어떨까?” 인공지능끼리 동료 리뷰를 시킨 것이다. 제미나이, 클로드, 챗지피티 4.5 등 세 인공지능 모델에 지금까지 나온 회의록 요약을 넣고, 다음과 같이 프롬프트를 입력했다.

“다음 회의록 요약을 비교하는 리뷰를 작성해줘. 각각의 언어모델이 회의록을 정리했는데, 어떤 차이가 있어?”

역시 팔은 안으로 굽는가. 세 인공지능은 모두 자신이 답변한 결과물이 제일 훌륭하다는 평가를 내놓았다.

옛날 그리스 장군들이 ‘페르시아 백만 대군을 물리치는 데 누가 가장 공이 컸나’를 묻는 투표를 했다고 한다. 각자 자기 이름을 1등으로 적어 내는 바람에 1등이 없고, 대신 2등으로 모두들 테미스토클레스의 이름을 적어 낸 덕분에 테미스토클레스가 전체 1등을 하게 되었다는 우스개 같은 이야기가 있다.

세 인공지능은 각자 자기 자신을 뽑았는데, 다음으로 클로드와 챗지피티는 2등으로 모두 제미나이 2.5 프로를 꼽았다. 마치 테미스토클레스처럼 제미나이가 인공지능 세계에서 전체 1등을 하게 된다.

마지막으로 덧붙이고 싶은 이야기 두 가지.

이 기사는 어디까지나 2025년 4월 초의 기술 수준을 반영한다. 자고 일어나면 새로운 인공지능 언어 모델이 튀어나오는 시절이므로 5월에는 또 무슨 변화가 있을지 알 수 없다.

또 하나. 인공지능이 해준 요약에는 치명적 실수가 포함될 수 있다. 마지막으로 사람이 확인을 하지 않으면 큰코 다칠 수가 있다. 복사기가 처음 등장했을 때 움베르토 에코가 이런 말을 했다고 한다. “복사기의 문제는 사람들이 복사만 해놓고 자기가 읽었다고 착각한다는 것이다.”

김태권 만화가·신호철 편집위원 editor@sisain.co.kr

경제