“생성형 AI는 데이터 전쟁…전 세계 데이터 60%는 영어”

김준엽 2023. 4. 13. 14:54
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[인터뷰] 최정규 LG AI연구원 멀티모달AI그룹장

챗GPT로 촉발된 ‘생성형 인공지능(AI) 경쟁’이 뜨겁다. 아직까지 무대에 올라온 주요 선수는 미국 빅테크들이다. AI는 정교한 알고리즘과 풍부한 데이터를 관건으로 한다. 한국 기업은 두 가지 모두에서 빅테크와 비교해 부족하다. 그래도 한국 기업들은 맹렬하게 추격 중이다. 그 가운데 LG AI연구원은 선두권이라는 평가를 받는다.

LG AI연구원에서 만든 초거대 AI ‘엑사원’은 세계 최대 수준인 6000억개 이상의 ‘말뭉치’, 이미지·텍스트로 짝지어진 3억5000만장 이상의 데이터를 학습해 언어와 이미지 간의 양방향 데이터 생성을 구현한다. 엑사원이 만든 광고가 ‘올해의 광고상’을 받는 등 가시적 성과도 거두고 있다. LG AI연구원 멀티모달AI그룹장인 최정규 상무를 지난 6일 만나 AI 개발 현황과 과제에 대해 얘기를 들어봤다.

-IT 분야에서 한국어는 일종의 진입장벽이었다. 생성형 AI 시대에도 그럴까.
“많이 깨진 거 같다. 우리도 한국어에 집중하다가 바이링구얼(2개 이상의 언어를 자유자재로 구사하는 것)을 지향한다. 조사해 보니 한국어 데이터는 전 세계 인터넷 데이터에서 비중이 0.6%에 불과하다. 반면 영어 데이터는 60%다. 그 안에 굉장히 많은 지식을 담고 있기 때문에 영어에서 지식을 잘 학습한 다음 한국어를 잘 하도록 해야 챗GPT를 넘어설 수 있다. 한국어 데이터만으로는 어렵다고 판단한다.”

-데이터 차이는 어떻게 나는 건가.
“예를 들어 영미권 책의 경우 시간이 지나면 라이선스가 풀려서 누구나 쓸 수 있다. 반면 한국은 그런 개념 자체가 없다. 저작권 있는 책은 일일이 저자를 만나서 저작권 이슈를 해결해야 데이터로 쓸 수 있다. 그렇다 보니 고품질 데이터는 아무래도 미국보다 굉장히 열악하다. AI 정확도 등을 평가할 때 쓰는 대규모 멀티태스킹 언어 이해(MMLU·Massive Multitask Language Understanding)에는 수학, 철학, 물리학 등 57개 분야의 전문 데이터가 쌓여있다. 그런 데이터를 AI가 학습하고 고도화한다. 한국은 전무하다. 과학기술정보통신부에도 이런 부분을 다 설명했다. 정부에서도 열심히 노력하고 있다.”

-한국 기업은 빅테크를 추격하기 어렵나.
“그렇지 않다. 특정 분야에 한정하는 ‘버티컬 영역’에선 오히려 한국 기업들이 더 앞서 있다고 생각한다. 데이터를 가지고 있는 기업들은 구글, 오픈AI 등과 함께 일하는 걸 두려워한다. 데이터가 그쪽으로 넘어가 비즈니스를 빼앗길 수 있다고 우려한다. 글로벌 화학·바이오 기업 중에 우리와 협업하는 사례도 있다. 우리의 AI 기술로 그들의 데이터를 가지고 솔루션을 만든다. 버티컬 시장은 데이터가 외부로 나가지 않기 때문에 데이터 유출 같은 보안 이슈가 없다.”

-AI 시대에는 데이터가 중요하다는 의미인가.
“일단 AI 서비스가 클라우드 기반이기 때문에 데이터는 무조건 넘어간다. 그리고 데이터는 대부분 저장된다. 그걸 가지고 서비스 개선에 사용한다. 앞으로 AI 시대가 되면 ‘데이터 전쟁’이 더 치열해질 것이다. AI가 그림을 그릴 때 커피를 들고 있는 여자를 그리라고 하면 백인 여자, 노점상에서 물건을 파는 여자를 그리라고 하면 유색 인종을 그리는 것도 결국 데이터가 그렇게 쌓여있기 때문이다. 챗GPT에서 ‘환각 문제’가 발생하는 것도 원인이 데이터다. 인터넷에는 신뢰하기 어려운 데이터도 많다. 이런 데이터를 학습하면 사실이 아닌 것도 그럴 듯하게 말한다. 생성형 AI가 진정한 게임 체인저가 되려면 이런 문제를 해결해야 한다.”

-생성형 AI 시대가 오면 많은 일자리가 사라진다는데.
“벌써 프롬프트 엔지니어(Prompt Engineer)라는 새로운 직업군이 생겼다. 생성형 AI에 정확한 명령을 주고 어떤 일을 하라고 설계하는 직업이다. 어떤 질문을 하느냐에 따라 결과가 큰 차이가 발생하기 때문에 매우 중요한 역할이다. 생성형 AI를 잘 이해하고 있어야 할 수 있는 일이다. 이밖에 AI가 창작한 걸 다시 검사해서 표절 시비가 없는지 검사하는 직업도 생겨날 거 같다. AI가 인간에게 어떤 초안을 만들어주고 사용자가 최종적으로 선택하는 방식으로 굉장히 많은 가치를 제공해줄 수 있다고 생각한다. 생성형 AI의 등장으로 전문가들은 좀 더 창의적 영역에 집중할 수 있다. 더 좋은 일자리와 서비스가 생기는 기회가 되지 않을까 한다. 포드가 처음 자동차를 만들었을 때 말과 관련한 사람들이 다 일자리를 잃는다고 했다. 그런데 자동차 등장으로 더 많은 일자리가 생겼다.”

-AI가 그린 그림을 보면 유독 손가락 어색한 경우가 많다.
“손가락이 제일 어려운 부분이다. 사람의 손가락이 5개라는 걸 알아야 하는데, AI는 사람의 손가락인지 동물의 손가락인지 구분하지 못한다. 디테일에서 좀 떨어진다. 보완하기 위해서 여러 가지 방법론을 시도하고 있다.”

-영화 ‘아이언맨’의 자비스, 영화 ‘그녀’의 사만다 같은 서비스도 조만간 나올까.
“특정 상황을 이해한다는 게 굉장히 어려운 일이다. 이미지만 보고 그 뒤에 있는 감정을 이해하는 건 복합적 기술이 필요하다. 복합적인 정보를 가지고 상황을 이해하거나 거기에 맞게 먼저 정보를 제공한다든지 하는 기술은 부족하다. 아직은 아니다.”

김준엽 기자 snoopy@kmib.co.kr

GoodNews paper ⓒ 국민일보(www.kmib.co.kr), 무단전재 및 수집, 재배포금지

Copyright © 국민일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?