한국인이 존경하는 인물에 박명수?...한국어 능력 떨어지는 챗GPT, 바드는?

이상덕 특파원(asiris27@mk.co.kr) 2023. 5. 11. 04:03
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

구글 I/O 현장...인공지능 신기술 향연
“영어 이어 한국어 일본어” 먼저 공개
오늘부터 ‘바드’서 한국어 사용 가능
검색 엔진에도 생성형 인공지능 탑재

[미라클레터 실리콘밸리 이상덕 특파원] 구글의 연례 이벤트인 구글 I/O가 열리고 있는 마운틴뷰의 쇼어라인 앰피씨어터에 나와 있습니다. 여러분이 잠든 사이에, 순다르 피차이 CEO가 무대에 올라 이런 말을 했어요. “인공지능 기업으로 여정을 시작한 지 7년이 지난 지금 우리는 흥미진진한 변곡점에 있습니다. 우리는 인공지능을 사람, 기업, 커뮤니티, 모든 사람에게 더욱 유용하게 만들 기회를 찾고 있어요.”

오픈AI의 챗GPT를 등에 엎은 마이크로소프트가 치고 나가려고 하자, 구글이 이를 뿌리치려는 움직임이 엿보이는 발언이었습니다.

구글은 크게 초거대인공지능 팜2(PaLM)와 이를 기반으로 한 바드, 그리고 다시 이를 접목한 새로운 검색 엔진을 선보였습니다. 피차이 CEO는 이날 한국을 여러 차례 강조해 시선을 끌었습니다.

바드는 영어뿐 아니라 40개 언어를 지원하는데, 최우선적으로 한국어를 지원하겠다고 밝혔습니다. 챗GPT가 영어 외에 다른 언어에 매우 취약하다는 것을 공략하는 대목입니다. 구글은 어떤 미래 전략을 세운 것일까요. 그리고 왜 한국 시장을 강조한 것일까요. 오늘은 구글이라는 빅테크 기업이 준비하고 있는 미래에 대해 짧고 굵게 살펴보겠습니다.

“MS 잡겠다” 더 강해진 바드
구글 I/O가 열리고 있는 캘리포니아주 마운틴뷰의 쇼어라인 앰피시어터 (이상덕 특파원)
구글의 I/O는 구글이 실리콘밸리에서 여는 연례 개발자 콘퍼런스입니다. 웹, 모바일, 엔터프라이즈, 크롬 등 개방형 기술을 대거 공개하는 테크 축제인데요. 2008년 시작해 올해 벌써 15년 차를 맞았습니다. 이날 구글은 마이크로소프트를 의식한 듯 작심하고 인공지능을 대대적으로 선보였습니다.

가장 먼저 선보인 것은 초거대인공지능 팜2(PaLM)입니다. 피차이CEO는 “사람들의 잠재력을 발휘할 수 있도록 돕고자 한다”면서 팜2를 소개했습니다. 그동안 구글은 팜2 개발을 위해 ‘유니파이드 언어 모델’이란 프로젝트명을 남몰래 진행했고, 그 결과를 작년 4월 팜이라는 이름으로 선보였습니다.

이어 올해 3월에는 팜을 활용해 텍스트와 이미지, 동영상 등을 생성할 수 있는 응용프로그램 인터페이스(API)를 공개했는데, 오늘 한단계 더 나아간 초거대인공지능을 선보였습니다. 초거대인공지능이란 인간 두뇌의 시냅스에 해당하는 파라미터수가 10억개 이상인 인공지능입니다. 파라미터가 클수록 연산 능력이 뛰어납니다. 또 이를 다양하게 응용할 수 있습니다. 챗GPT는 파라미터수 1750억개에 달하는 GPT-3.5가 연결돼 있습니다. 한데, 팜2의 파라미터수는 무려 GPT-3.5의 3배 이상입니다.

(구글 팜2: 5400억개, 엔비디아: 5300억개, 오픈AI GPT-3.5: 1750억개, 메타 라마: 650억개)

또 다양하게 응용이 가능한 다이내믹 버전입니다. 필요에 따라 파라미터수를 달리할 수 있다고 합니다. 파라미터수가 크면 서버 비용이 많이 들어가기 때문에, 맞춤형으로 제공하겠다는 것인데요. Gecko 도마뱀, Otter 해달, Bison 들소, Unicorn 유니콘이라는 애칭을 붙였습니다. 용도도 다양합니다. 예를 들어 Med-PaLM2이 대표적입니다. 의료 면허 시험 질문을 통과했다고 합니다. 또 영상에서 정보를 합성하고 방사선 전문의가 영상을 해석하고 결과를 전달할 수 있어요.

팜2는 100개 언어를 지원하는데, 즉시 사용할 수 있는 것은 아닙니다. 팜2를 생성형 인공지능인 바드 Bard에 연동해 서비스로 선보입니다. 바드는 영어 서비스만 제공하고 있었는데, 앞으로 180개국에서 40개 언어를 지원합니다. 특히 한국어와 일본어를 먼저 지원합니다. 또 이날 구글은 이러한 서비스를 곳곳에 적용하기로 했습니다.

코딩 기능도 대대적으로 업데이트했습니다. 한국어로 코딩을 생성하는 기술을 시연해 놀랐습니다. 또 챗GPT와 달리 소스의 출처를 표기하고, 내보내기 버튼이 있어 구글 코랩(Colab)으로 코드를 내보낼 수 있도록 했습니다.

또 이미지를 검색해 답변할 수 있도록 했습니다. 예를 들어 이용자가 “뉴올리언스에서 꼭 가봐야하는 관광명소가 어디인가요?”라고 물어보면, 바드는 관련된 이미지까지 검색해 답변에 포함한다고 해요.

디자인 도구 빅테크인 어도비와 협력도 선언했습니다. 텍스트로 고품질 이미지를 생성할 수 있는데, 전부 저작권이 있는 데이터로 학습했다고 합니다. 어도비 익스프레스를 활용해 이미지를 수정하거나 기존 디자인에 추가할 수도 있고요.

김소월시 챗GPT VS 바드 누가 더 잘 짓나
구글 바드(왼쪽)와 챗GPT에 김소월 스타일로 “한국”을 주제로 시 작성을 요청한 결과물.
네이버는 7월에 ‘하이퍼클로바X’를 기반으로 한 차세대 검색 서비스 ‘서치GPT(가칭)’를 공개한다고 했어요. 챗GPT의 한국어 실력이 형편없으니, 챗GPT보다 한글 데이터를 6500배 많이 학습한 대규모 언어모델을 선보인다는 발표였습니다. 하지만 구글이 먼저 선수를 쳤습니다.

챗GPT는 매우 뛰어난 영어 실력을 자랑하지만, 한국어 능력은 매우 별로입니다. 전체 데이터 학습량 가운데 영어 비중이 무려 97%에 달하고, 한국어는 0.02%인 것으로 알려졌습니다. 바드의 실력이 궁금해 바로 실험을 해봤습니다. 이름하여 챗GPT, 빙 챗봇, 바드 한국어 실력 겨루기!

생성형 인공지능은 환각 현상이 있습니다. 거짓 문장을 종종 생성. 사실 확인을 해보고자, “한국인이 존경하는 인물 10명을 순서대로 알려 달라”고 해보았습니다. 가장 최신 조사인 한국 갤럽의 2019년 ‘한국인이 가장 존경하는 인물’을 살펴보면 정답은 아래와 같습니다. 1위 이순신, 2위 세종대왕, 3위 노무현, 4위 박정희, 5위 김구, 6위 정주영, 7위 유관순, 8위 김대중, 9위 반기문 10위 안중근.

하지만 챗GPT에 물어보니? 이순신 김유신 세종대왕 이황 박정희 김대중 박지성 손흥민 유재석 박명수(응?) 순으로 답했습니다. 더욱이 이황에 대해선 “한글의 제정을 위해 노력한 인물”이라거나, 김유신에 대해선 “대한민국 성립에 큰 공을 세운 유명한 장군”이라는 동문서답을 합니다. 챗GPT에 검색 엔진을 결합한 마이크로소프트는? 정확히 응답했습니다. 또 바드 역시 정확했습니다!

이번에는 한국어 창작 능력을 테스트했습니다. 한국의 대표적인 시인인 김소월의 스타일로 시를 작성해달라고 요청했어요. 김소월 시의 특징은 두가지 입니다. 운율을 이루는 기본 단위를 3음보로 하고, 한국의 한을 매우 잘 표현합니다. 결과는? 위에 있는 사진을 봐주시면 좋겠습니다.

사진 왼쪽은 바드가 생성한 시, 오른쪽은 챗GPT가 생성한 시입니다. 바드는 김소월 시의 특징인 3음보를 가급적 지키며 시를 작성해 놀랐습니다. 반면 챗GPT는 한국어 시를 쓰긴 하는데, 김소월 시 스타일은 아니었습니다. (빙 챗봇은 현재 창조성 모드가 막혀 있습니다.)

마지막으로 분량입니다. 아무리 좋은 생성형 인공지능이더라도 분량이 짧으면 용도가 제약됩니다. 영단어를 놓고 보면 챗GPT는 2000자 이내를 생성합니다. 한국어는 어떨까요. 챗GPT는 790단어, 바드는 1700단어까지 생성이 됩니다. (물론 프롬프트나 반복에 따라 달라질 순 있는데, 제가 한 실험에선 그랬습니다)

왜 구글은 한국어와 일본어를 영어 다음으로 먼저 선보였을까요? 중국어 스페인어나 힌두어를 쓰는 인구가 더 많은데 말이죠. 중국의 경우 최대 인공지능 스타트업 센스타임이 ‘센스챗’을, 중국 최대 검색엔진 바이두가 ‘어니봇’을 이미 선보였습니다. 하지만 한국은 네이버와 카카오, LG, KT SKT 등이 뛰어들었지만 아직 제대로 된 생성형 인공지능이 나오질 않았습니다.

특히 구글은 구글내 사이트에 올라온 막대한 공개 자료를 이용하다 보니 정확한 한국어 실력이 매우 정교했습니다. 한국의 수많은 빅테크 기업들이 한국어 대규모 언어모델을 만든다고 했는데요. 바드 수준 이상으로 나오지 않으면 빛을 발하기 어려울 것 같습니다.

검색엔진 “싹 바꾸겠다”
문장을 입력하면 채워지는 구글 스프레드시트 (구글)
구글은 검색 엔진마저 “싹 바꾸겠다”고 선언했습니다. 특히 대화형 인공지능을 도입하고, 15초 내외 짧은 영상 동영상을 전면에 배치한다고 했습니다. “더 시각적이고, 쉽게 소비할 수 있고, 개인적이고, 인간적인 검색엔진의 될 것“이라는 설명입니다.

예를 들어 검색어를 입력하면 구글 자체적으로 추가 질문을 제시합니다. 이날 현장에서는 자전거 검색을 시연했습니다. ”새로 나온 자전거를 찾아줘“하면, “유행하는 것은 파란색인데 이걸 찾으시나요?”하고 검색 입력창 밑에 다양한 질문들이 뜹니다. 또 짧은 영상 동영상 등 시각 자료 역시 빈번히 검색되도록 했습니다. 이를 위해 새로운 검색 엔진 기능인 MAGI를 도입한다고 합니다.

아울러 인공지능을 구글 전 제품에 도입! 구글 워크스페이스에 생성형 인공지능을 반영하기로 했습니다. 지메일, 문서 편집기 등에 인공지능을 사용할 수 있습니다. 하이라이트는 구글 스프레드시트(엑셀에 해당) 옆에 있는 창에 원하는 질문을 넣으면 알아서 엑셀 칸이 숫자로 채워집니다.

또 지메일 역시 인공지능이 탑재됩니다. “도와주세요”하면, 초안을 바로 작성할 수 있습니다. 예를 들어 항공편 세부 정보를 읽고 환불 가능성을 높일 이메일을 작성할 수 있습니다. 또 구글의 이미지 검색 서비스인 구글 렌즈에도 바드가 탑재됩니다. 예를 들어 강아지 사진을 선택한 후 “사진 속에 있는 강아지 두 마리에 대한 사진 캡션을 적어줘”라고 요청하면, 구글 렌즈에서 바드는 사진을 분석하고, 품종을 확인하면서, 창의적인 캡션을 작성합니다.

구글이 검색 엔진을 대대적으로 바꾸는 이유는 마이크로소프트가 챗GPT를 업데이트한 빙 챗봇을 도입한데다, 틱톡을 중심으로 한 숏폼 영상을 끌고 있어서입니다. 구글의 매출액은 지난해 1620억달러 정도인데요. 매출을 분석해 보면 이렇습니다.

(검색광고 58.1%, 파트너 광고 11.7%, 유튜브 광고 10.5%, 앱 하드웨어 10.4%, 클라우드 9.4%)

매출 가운데 80% 이상이 광고이기 때문에 검색과 유튜브에서 밀리면 구글은 생존이 위태로워 집니다. 윈도를 판매하는 마이크로소프트와는 다릅니다.

“미라클모닝을 하는 직장인들의 참고서 미라클레터!”
미라클레터
미라클레터 “미라클 모닝을 하는 직장인들의 참고서”인 미라클레터를 구독해 보세요. 매일 아침 7만4000명 이상이 미라클레터로 미라클 모닝을 하고 있습니다. 매경미디어그룹의 실리콘밸리 특파원과 미라클랩 기자들이 글로벌 트렌드, 테크놀로지 소식, 빅테크 주식, HR·리더십, 혁신 문화 스토리 등을 인사이트 있게 담아, 주 3회 이상 새벽 시간대에 이메일로 보내드립니다. 네이버 구글 등 검색 포털에서 ‘미라클레터’로 검색하시면 바로 찾으실 수 있습니다.
미라클레터 QR코드

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?