마인즈랩 "데이터, 양 보다 질..목적에 맞게 정제해야"

최은정 2020. 11. 27. 18:12
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

최홍섭 마인즈랩 대표는 27일 서울 용산 서울드래곤시티호텔 그랜드볼룸에서 열린 'K-DA 데이터 콘퍼런스' 행사에서 이 같이 강조했다.

잘 정제만 된다면  적은 양의 데이터라도 사업 운영에 필요한 고품질의 데이터셋이 될 수 있다는 게 그의 얘기다.

최 대표는 "로컬 데이터셋이 글로벌한 코로나19 감염 패턴을 예측하는 데 쓰인 것"이라며 "이는 데이터셋을 잘 정제했기에 가능했던 것"이라고 말했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

최홍섭 대표 "정제된 데이터셋으로 코로나 연구 기여"..K-DA 데이터 콘퍼런스

[아이뉴스24 최은정 기자] "데이터가 유의미하게 사용되기 위해서는 단순히 데이터를 모으고 인공지능(AI)를 활용하는 데 주안점을 두는 것보다 높은 가치를 지니도록 데이터를 정제하는 것이 더욱 중요하다"

최홍섭 마인즈랩 대표는 27일 서울 용산 서울드래곤시티호텔 그랜드볼룸에서 열린 'K-DA 데이터 콘퍼런스' 행사에서 이 같이 강조했다. 잘 정제만 된다면  적은 양의 데이터라도 사업 운영에 필요한 고품질의 데이터셋이 될 수 있다는 게 그의 얘기다.

실제로 마인즈랩의 경우 자사의 정제된 데이터셋을 기반으로 코로나19 관련 연구 성과에서 성과를 내고 있다. 옥스포드대는 캘리포니아주의 코로나19 확진자 DNA와 마인즈랩의 데이터셋에 포함된 국내 코로나19 감염경로를 대조했다.

최홍섭 마인즈랩 대표 [이미지=캡처]

이를 통해 8종의 코로나19 바이러스가 캘리포니아에 퍼졌으며, 타 국가나 주에서 유입된 인구들이 큰 감염 요소였다는 등의 결과를 도출할 수 있었다는 게 그의 설명이다.

최 대표는 "로컬 데이터셋이 글로벌한 코로나19 감염 패턴을 예측하는 데 쓰인 것"이라며 "이는 데이터셋을 잘 정제했기에 가능했던 것"이라고 말했다. 또한 "포스트 코로나 시대에는 데이터를 잘 정제해 활용하는 능력이 더욱 중요질 것"이라고 내다봤다.

마인즈랩은 이 데이터셋을 확보하는 과정에서 AI 기술인 자연어 전처리 기술을 활용했다. 각종 비정형 데이터를 정형 데이터로 바꾸기 위해서다.

그는 "가공되지 않은 대규모의 원 데이터 보다 적은 양이더라도 공들여 연구분석에 활용할 수 있도록 만든 데이터가 더욱 가치있다"고 덧붙였다.

아울러 그는 최근 스타트업 등 기업들 대부분이 도입하는 AI를 사업 목적에 맞게 제대로 활용해야 한다고 조언했다. 사업 서비스 모델을 오픈해서 데이터가 모이면 이 데이터를 목적에 맞게 AI 학습용 데이터로 정제 가공하고, 이를 통해 AI를 고도화하는 등 방안을 제시했다.

그는 AI 모델을 학습시키는 데이터 역시 이런 고품질의 데이터가 기반이 돼야 한다고 했다.

최 대표는 "AI를 완성시키기 위해선 데이터, 알고리즘, 클라우드, 애플리케이션, 하드웨어 등까지 여러 단계의 기술이 융합돼야 하겠지만 원 데이터가 아닌 정제된 데이터로 학습시키는 것이 필요하다"고 말했다.

최은정기자 ejc@inews24.com

▶네이버 채널에서 '아이뉴스24'를 구독해주세요.

▶재밌는 아이뉴스TV 영상보기▶아이뉴스24 바로가기

[ⓒ 아이뉴스24 무단전재 및 재배포 금지]

Copyright © 아이뉴스24. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?