구글, 韓 검색 시장도 접수할까… AI 챗봇 지원 언어로 사용인구 23위 ‘한국어’ 선택한 이유는

이소연 기자 2023. 5. 12. 14:31
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

구글, AI 챗봇 기본언어는 영어, 한국어, 일본어 등 3개 언어뿐
韓 사용인구는 23위에 불과… 언어 특성상 기술적 진입장벽 높아
한국어 시장에선 오픈AI 이길 수 있어
네이버 상대로 공세수위 높여 검색엔진 1위 탈환도 목표
구글 로고와 생성형 AI./로이터 뉴스1

구글의 대화형 인공지능(AI) ‘바드’가 지원하는 언어는 영어, 일본어, 한국어 등 3개뿐이다. 사용인구 기준으로 전 세계 23위에 불과한 한국에 대한 구글의 전략적 선택에 관심이 모아지고 있다. IT업계에서는 구글이 한국 검색 시장 점유율을 높이기 위한 수단으로 이 같은 결정을 내린 것으로 보고 있다. 이에 따라 국내 검색 시장을 수성해야 하는 네이버는 대책 마련이 시급한 상황이다.

순다르 피차이 구글 최고경영자(CEO)는 11일(현지시각) “(한국어와 일본어는) 기존 영어와 매우 다르고 새로운 것을 시도하는 데 큰 도움이 된다”라며 한국어 지원 시도를 “새로운 도전”이라고 설명했다. 이어 한국과 일본을 ‘모바일 분야에서 세계를 선도하고 있는, 역동적이고 흥미로운 지역’이라고 평가하며 두 시장 진출의 의의를 설명했다.

바드가 영어 외 언어를 지원한 것은 한국어와 일본어가 처음이다. 언어학 비영리단체 에스놀로그에 따르면 한국어 사용 인구는 8170만명으로 전 세계 23위에 불과하다. 2위 중국어(11억명), 3위 힌디어(6억명), 4위 스페인어(5억명), 13위 일본어(1억명)과 비교해도 사용인구가 적은 편이다.

구글 바드에 '한국에서 가장 유명한 관광지'를 물으니 경복궁, 남산타워, 에버랜드 등을 답했다/바드

◇ AI 훈련 어려운 한국어… ”구글, 한국어 시장서는 오픈AI 이길 수 있어”

IT업계는 구글의 한국어 서비스 목적에 대해 한국어를 활용해 AI를 훈련하는 것이 자사 AI 고도화에 도움이 되기 때문이라고 분석했다. 영어와 언어구조가 완벽하게 다른 한국어를 학습하면서 구글 AI가 빠르게 정교해진다는 것이다. 이는 영어 등 서구권 언어와는 다른 언어로 AI 품질 또한 검증할 수 있는 기회이기도 하다.

전문가들은 오픈AI가 아직 선점했다고 보기 어려운 한국어 시장을 구글이 먼저 차지하고자 한국어를 바드 기본 언어로 선택했다고 평가했다. 한국어 자연어처리 분야 전문가인 박진호 서울대 국어국문학과 교수는 “한국어는 언어가 복잡해 AI를 학습하는 데 영어를 포함한 다른 언어보다 많은 비용이 발생한다”라며 “영어 서비스는 구글이 오픈AI를 따라잡기까지 오랜 시간이 걸리겠으나, 개발이 어려운 한국어의 경우 구글이 오픈AI와 비슷하게, 혹은 더 뛰어난 서비스를 낼 수도 있다. 이러한 환경을 고려해 구글이 한국어에 집중하고 있는 것이다”라고 했다.

전문가들은 한국어가 영어보다 AI 훈련이 더 어려운 언어라고 평가하고 있다. 영어는 어순이 고정적이지만 한국어는 변주가 많기 때문이다. 영어는 ‘주어’ ‘동사’ ‘목적어’의 순으로 모든 문장이 이뤄진다. 반면 한국어는 ‘나 너 좋아해’와 ‘너를 내가 좋아해’ 등 다양한 문장이 일상생활 등에서 자유롭게 사용된다. 한국어는 어미도 다양해 ‘먹었니’ ‘먹으며’ ‘먹는구나’ 등 다양한 표현이 존재한다. AI를 학습시키는 경우 이러한 어미를 모두 별도로 떼어내야 하므로 한국어 학습이 더 복잡하다고 여겨지기도 한다는 것이다.

AI 생성 모델은 특정 문장의 일부 단어를 먼저 제시하고, 그다음 단어로 가장 적합한 언어를 예측하는 방식으로 이뤄진다. 이 경우 변형이 많은 한국어는 AI의 예측이 더 어려워진다고 박 교수는 설명했다.

다만 강재우 고려대 컴퓨터학과 교수는 “언어가 AI 훈련에 기술적으로 어려운지 여부보다는 아직 오픈AI에게 한국어가 핵심 언어가 아니다 보니, 다소 ‘소외된 언어’로 구글이 차별화를 두려는 것으로 보인다”라고 했다.

AI를 훈련할 수 있는 한국어 데이터도 절대적으로 부족한 것도 한국어 AI 시장의 진입장벽으로 작용하고 있다. 웹 크롤링 사이트 ‘커먼크롤’에 따르면 AI 학습 시 활용할 수 있는 아카이브에 있는 언어 중 한국어 비중은 0.65%로 19위에 머물렀다.

◇ 구글이 접수 못한 한국 시장… AI 앞세워 공세 수위 높이나

더 나아가 구글은 궁극적으로 한국 검색 시장 내 점유율을 높이기 위해 공을 들이고 있는 것으로 해석된다. 구글은 글로벌 검색 시장에서 92.61%의 점유율로 절대 강자다. 그러나 한국 시장은 구글이 1위를 확보하지 못한 마지막 보루로 여겨진다. NHN데이터에 따르면 지난해 4분기 국내 검색 엔진 유입률을 분석한 결과 네이버가 62.81%로 여전히 우위를 보였다. 구글과 다음은 31.41%와 5.14%에 머물렀다.

이러한 상황에서 구글이 AI 서비스를 활용해 한국 검색 시장 점유율을 높이는 것은 상징적인 의미가 있다고 업계는 평가했다. 실제 검색 시장은 현재 AI 챗봇 서비스가 등장하면서 역동적으로 움직이고 있다. 지난 3월 마이크로소프트(MS)가 자사 검색엔진 ‘빙’에 챗GPT 기술을 적용하자 빙 방문자 수가 15% 증가하기도 했다.

구글이 한국 기업들보다 먼저 한국어 서비스를 선보여 시장을 선점하려는 시도로도 풀이된다. 네이버, 카카오 등은 현재 한국어 특화 AI 서비스를 선보이기 위해 개발 중이다. 네이버는 기존에 선보인 초거대 AI 모델 하이퍼클로바를 업그레이드한 하이퍼클로바X를 올해 7~8월에 선보일 계획이다. 카카오의 AI 사업을 담당하는 카카오브레인은 기존에 공개한 초거대 AI 모델 코GPT를 개선한 코GPT 2.0을 하반기에 공개하기로 했다.

- Copyright ⓒ 조선비즈 & Chosun.com -

Copyright © 조선비즈. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?