'개인화된 GPT'…액션파워가 말하는 AI 일상의 변화란

양미영 2024. 7. 12. 10:35
음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

액션파워 CTO인 이지화 공동대표 인터뷰
AI 자동필기 서비스 '다글로' 폭풍 성장중

인공지능(AI)은 세상을 바꾸고 있을까. 모두가 AI를 외치지만, 우리 일상에 얼마나 영향을 주고 있는지에 대한 의문은 여전하다. 

AI 스타트업 액션파워는 일상의 변화를 만들며 AI 자동필기 서비스 '다글로' 고객 150만명과 함께 성장하고 있다. 액션파워 CTO인 이지화 공동대표는 "기술은 연구소 밖으로 나와서 생활을 바꾸는 순간 의미있다"고 말한다. 액션파워가 말하는 AI 시대 변화가 무엇인지 알아봤다.

이지화 액션파워 공동대표

액션파워의 기술적 지향점은 '사람과 컴퓨터의 자연스러운 대화'다. 다글로는 우선 컴퓨터가 말을 정확히 알아듣게 하자는 목표를 갖고 시작했다. 

다글로는 2017년 출시한 국내 최초의 STT(Speech-to-text) 서비스다. 다른 서비스와 가장 큰 차별점은 멀티모달(Multi-modal) 지원이다. 

예를들면 영상 파일을 업로드하거나 유튜브 링크를 붙여 넣으면, 바로 영상의 음성을 원고로 생성하고 요약한다. 긴 영상에서 빠르게 중요한 부분만 파악하고 싶거나 강의 영상을 원고로 함께 보기 원하는 사용자들에게 인기다.

이지화 대표는 "멀티모달은 데이터가 영상, 음성, 문자 등 다양한 방식으로 입출력 되는 것"이라며 "사람간 대화도 함께 어떤 대상을 보고 들으면서 이뤄진다는 점에서 멀티모달"이라고 설명했다. 

AI가 각종 기기·로봇과 연결되어 사용되는 상황을 생각하면, 멀티모달리티는 필수 조건이다. 사람이 보고 듣는 것을 컴퓨터가 함께 보고 들으며 작동해야 하기 때문이다.

문제는 멀티모달리티를 구현하기 어렵다는 것. 이 대표는 "텍스트, 음성, 이미지, 영상, 인터페이스 등을 모두 다룰 수 있는 기업이 아니면 구현하기 어렵다"며 "각 기술이 서로 통합적으로 운영되어야 하기 때문에 일부 기술만 차용하는 방식은 어렵다"고 말했다.

그는 특히 "기술 구현이 가능하다고 해도 실제로 적용할 서비스와 고객이 있어야 시장 안에서 지속 사업으로서 성장할 수 있다"며, AI 분야의 Speech, Language, Vision 분야 기술 전반과 서비스 운영을 동시에 추구하는 액션파워의 강점을 강조했다.

기능이 유사한 서비스가 아예 없는 것도 아니고, OpenAI 같은 글로벌 빅테크들의 기술도 계속 발전하고 있는데 액션파워에는 어떤 특별한 점이 있어서 이런 자신감이 있을까.

액션파워 다글로 서비스 / 이미지=액션파워

이 대표는 목적이 분명한 대량의 데이터 유입을 강조했다. 다글로는 매월 200만시간 이상의 영상과 음성 데이터를 처리한다. 특히 다글로 사용자의 절반이 대학생과 연구자임을 감안할 때, 높은 수준의 정보가 대량으로 유입되면서 AI모델 성능이 점점 더 빠르게 발전하는 선순환 구조를 갖췄다고 설명했다.

그는 글로벌 빅테크의 기술도 액션파워의 성장 기반이라고 설명했다. 그는 "글로벌 기업이 막대한 자본을 투자해서 신규 기술을 공개하면 더 뛰어난 성능의 오픈 소스가 바로 공개된다"며 "중요한 건 어떤 기술이 의미있는지 판단하고 공개된 기술을 빠르게 경량화해서 적용하는 것이고, 우리 연구팀은 그 역량이 있다"고 말했다.

액션파워 연구진은 ACL, COLING, INTERSPEECH, ICASSP 등 세계적인 학회에 매년 수 편의 논문을 게재하며 누적 15건 이상의 논문을 발표하고 70여건의 국내외 특허를 보유하고 있다고 한다. 

이 대표는 "다글로에는 액션파워가 직접 개발하고 학습시켜서 운영중인 언어 모델이 들어가 있다"면서 "이를 통해 요약에 필요한 비용을 GPT-4 대비 10분의1로 줄였으며, 고객들이 의도에 맞는 응답을 안정적으로 받을 수 있도록 정확도를 높여서 오류율을 GPT-4 대비 1% 미만으로 유지하고 있다"고 말했다.

기술, 서비스, 운영 능력의 삼박자를 갖춘 액션파워는 충성도 높은 고객층과 막대한 데이터 유입을 기반으로, 다양한 산업분야를 혁신할 준비를 마쳤다.

첫번째 선택은 '다글로 챗'이다. 사용자가 '본인이 입력한 데이터'와 대화할 수 있도록 하는 기능이다. 

예를 들어, 대학생이 한 학기분의 강의를 다글로에서 변환했다면, 그 강의 내용에 대해 다글로와 대화 할 수 있다. 이때 다글로는 입력되어 있는 강의 정보를 기반으로 답을 하게 된다. 

이 대표는 "개인화된 GPT다"라며 "본인이 입력한 데이터를 기반으로 대화하는 AI이므로, GPT 같은 언어모델이 가지고 있는 할루시네이션(거짓 정보 출력) 문제를 해결할 수 있다"고 설명했다. 

두번째는 '다글로 케어'다. 액션파워는 작년부터 국내의 대학병원 정신의학과와 함께 환자들의 상담 내용을 분석해서 정신건강 위험도를 측정하는 솔루션을 운영중이다. 인간이 눈치채기 어려운 위험 징후를 AI가 알아채고 의사에게 알려주는 것은 인구 대비 정신의학 전문의가 적은 국내 환경을 고려할 때, 환자와 잠재 환자 모두를 위해 혁신적인 해결책이 될 수 있다는 분석이다. 

이 대표는 "AI가 의사가 될 수는 없지만, AI와의 짧은 대화만으로도 수백만의 잠재 환자들을 지켜주게 될 것이다"며 자신감을 보였다.

마지막은 'AI 스튜디오'다. 대본과 배우만 있으면 장소의 제약을 극복하고 자유롭게 영상을 만들고 관리할 수 있게 하는 AI 스튜디오를 준비하고 있다. 대형 스크린 앞에서 배우가 연기를 하면, 해당 장면에 필요한 배경을 AI가 생성한다. 만들어진 콘텐츠는 다글로 기술을 통해 자동으로 텍스트로 변환되고 모든 장면의 정보가 입력된다. 편집자는 텍스트로 필요한 장면을 검색해서 이전보다 5배 이상 빠르게 영상을 편집할 수 있다. 

이 대표는 "숏폼 드라마를 만드는 콘텐츠 제작사와 협력을 시작했다"며 "기술이 완성될 때마다 제작 현장에 바로바로 적용할 것"이라고 설명했다.

양미영 (flounder@bizwatch.co.kr)

ⓒ비즈니스워치의 소중한 저작물입니다. 무단전재와 재배포를 금합니다.

Copyright © 비즈워치. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?