한국 역사·문화 뒤진 챗GPT… 우리말 번역은 더 잘해
실질적으로 한국의 인공지능(AI) 모델 수준은 어느 정도 될까? 오픈AI의 챗GPT와 구글의 제미나이, 앤트로픽의 클로드, 그리고 한국 네이버의 하이퍼클로바X (이하 클로바)를 대상으로 국내 주요 연구진과 함께 성능을 직접 비교 분석해 봤다. 현재 국내에서 성능이 가장 앞서 있다는 네이버의 클로바가 한국의 언어와 문화 이해도에서 경쟁력이 있는지, 해외 AI의 성능은 어느 정도인지 확인해 봤다.
그 결과, 네이버의 클로바는 한국 역사·문화에 대한 이해도가 높았지만, 챗GPT와 제미나이 등 외국 AI의 한국어 구사 수준이 네이버 AI와 비슷하거나 오히려 더 나은 것으로 나왔다. 한국어 데이터를 충분히 학습한 해외 AI가 국내 AI의 강점이라고 여겨지던 부분까지 뛰어넘고 있는 것이다.
본지가 김정호 KAIST 교수 연구진과 역사·문화와 관련된 질문을 추려 AI에 질문한 결과, 클로바가 정확하고 풍부한 답을 내놓았다. ‘6·25전쟁의 발발 책임’에 대해 클로바는 “북한이 계획적으로 남한을 침공했다는 건 부인할 수 없는 사실”이라고 했다. 반면 챗GPT는 “명확히 특정 국가나 인물에게 책임을 돌리기는 어렵다”고, 제미나이는 “해석의 다양성이 있다”고 했다.
한국 관련 사진 인식에서도 클로바가 우수했다. 이순신 장군 표준 영정을 보고 클로바는 정확히 이순신이라 답했지만, 제미나이는 답을 내놓지 못했다. 챗GPT는 ‘정약용’이라고 했다.
고등학교 모의고사 수준의 수학 문제 풀이에선 각 AI들이 비슷한 성능을 보였다. 다만 클로바의 경우 한국어로 된 수학 문제는 정답을 맞힌 반면, 같은 문제를 영어로 물어보면 오답을 골랐다. 미국 개발사 앤트로픽의 AI인 클로드는 영어 수학 문제는 정답률이 높았지만, 한국어로 된 문제는 틀렸다. 연구진은 “AI의 학습 언어, 데이터 양에 따라 성능이 다를 수 있다”며 “수학 같은 만국 공통 지식에 대해선 챗GPT가 가장 일관적이면서 우수한 성능을 냈다”고 평가했다.
반면 한국어 번역에선 클로바의 성능이 ‘국산 AI’라는 기대에 미치지 못했다. 한국번역학회장을 지낸 조성은 한국외대 영어대학장 연구진은 클로바, 챗GPT, 제미나이, 클로드에 한영, 영한 번역을 맡긴 결과, 한국어 원문(문학, 수능지문, 안내문, 신문기사 등)을 영어로 바꾸는 품질은 챗GPT가 가장 우수했다고 밝혔다. 20점 만점에 챗GPT가 16점으로 가장 높았다. 이어 제미나이(15), 클로드(14.5), 클로바(13.5) 순이었다. 연구진은 “챗GPT는 1940년대 한국 소설을 번역할 때, 한국식 표현을 앞뒤 문맥을 살려 생동감 있게 번역했다. 한국민속대백과사전의 내용을 영어로 바꿀 때도 원문 내용 전달이 가장 정확했다”고 설명했다. 영한 번역에선 제미나이(15점) 성능이 가장 좋았고, 이어 챗GPT(14.8), 클로드(13.8), 클로바(13.2) 순이었다. 연구진은 클로바에 대해선 “번역 품질이 들쑥날쑥한 부분이 있었고, he(그)와 she(그녀)를 헷갈리는 오류를 보였다”며 “외국 AI가 이미 양질의 한국어 데이터를 많이 학습했다는 의미”라고 했다.
/자료=김정호 KAIST 교수 연구실, 조성은 한국외대 영어대학장 연구진(윤미선·홍승연·최은경 박사, 조원석 연구원)
Copyright © 조선일보. 무단전재 및 재배포 금지.
- ‘트랙터 행진’ 전국농민회총연맹, 경찰과 대치 계속…”밤샘 농성할 것”
- 이적, 전람회 출신 故서동욱 추모 “모든 걸 나눴던 친구”
- 선관위, 현수막에 ‘내란공범’은 OK…’이재명 안 된다’는 NO
- 독일서 차량 돌진, 70명 사상…용의자는 사우디 난민 출신 의사
- 전·현직 정보사령관과 ‘햄버거 계엄 모의’...예비역 대령 구속
- ‘검사 탄핵’ 해놓고 재판 ‘노 쇼’한 국회…뒤늦게 대리인 선임
- “너무 싸게 팔아 망했다” 아디다스에 밀린 나이키, 가격 올리나
- 24년 독재 쫓겨난 시리아의 알-아사드, 마지막 순간 장남과 돈만 챙겼다
- 검찰, 박상우 국토부장관 조사...계엄 해제 국무회의 참석
- 공주서 고속도로 달리던 탱크로리, 가드레일 추돌...기름 1만L 유출