마인즈랩 "데이터, 양 보다 질..목적에 맞게 정제해야"
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
최홍섭 마인즈랩 대표는 27일 서울 용산 서울드래곤시티호텔 그랜드볼룸에서 열린 'K-DA 데이터 콘퍼런스' 행사에서 이 같이 강조했다.
잘 정제만 된다면 적은 양의 데이터라도 사업 운영에 필요한 고품질의 데이터셋이 될 수 있다는 게 그의 얘기다.
최 대표는 "로컬 데이터셋이 글로벌한 코로나19 감염 패턴을 예측하는 데 쓰인 것"이라며 "이는 데이터셋을 잘 정제했기에 가능했던 것"이라고 말했다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
[아이뉴스24 최은정 기자] "데이터가 유의미하게 사용되기 위해서는 단순히 데이터를 모으고 인공지능(AI)를 활용하는 데 주안점을 두는 것보다 높은 가치를 지니도록 데이터를 정제하는 것이 더욱 중요하다"
최홍섭 마인즈랩 대표는 27일 서울 용산 서울드래곤시티호텔 그랜드볼룸에서 열린 'K-DA 데이터 콘퍼런스' 행사에서 이 같이 강조했다. 잘 정제만 된다면 적은 양의 데이터라도 사업 운영에 필요한 고품질의 데이터셋이 될 수 있다는 게 그의 얘기다.
실제로 마인즈랩의 경우 자사의 정제된 데이터셋을 기반으로 코로나19 관련 연구 성과에서 성과를 내고 있다. 옥스포드대는 캘리포니아주의 코로나19 확진자 DNA와 마인즈랩의 데이터셋에 포함된 국내 코로나19 감염경로를 대조했다.
이를 통해 8종의 코로나19 바이러스가 캘리포니아에 퍼졌으며, 타 국가나 주에서 유입된 인구들이 큰 감염 요소였다는 등의 결과를 도출할 수 있었다는 게 그의 설명이다.
최 대표는 "로컬 데이터셋이 글로벌한 코로나19 감염 패턴을 예측하는 데 쓰인 것"이라며 "이는 데이터셋을 잘 정제했기에 가능했던 것"이라고 말했다. 또한 "포스트 코로나 시대에는 데이터를 잘 정제해 활용하는 능력이 더욱 중요질 것"이라고 내다봤다.
마인즈랩은 이 데이터셋을 확보하는 과정에서 AI 기술인 자연어 전처리 기술을 활용했다. 각종 비정형 데이터를 정형 데이터로 바꾸기 위해서다.
그는 "가공되지 않은 대규모의 원 데이터 보다 적은 양이더라도 공들여 연구분석에 활용할 수 있도록 만든 데이터가 더욱 가치있다"고 덧붙였다.
아울러 그는 최근 스타트업 등 기업들 대부분이 도입하는 AI를 사업 목적에 맞게 제대로 활용해야 한다고 조언했다. 사업 서비스 모델을 오픈해서 데이터가 모이면 이 데이터를 목적에 맞게 AI 학습용 데이터로 정제 가공하고, 이를 통해 AI를 고도화하는 등 방안을 제시했다.
그는 AI 모델을 학습시키는 데이터 역시 이런 고품질의 데이터가 기반이 돼야 한다고 했다.
최 대표는 "AI를 완성시키기 위해선 데이터, 알고리즘, 클라우드, 애플리케이션, 하드웨어 등까지 여러 단계의 기술이 융합돼야 하겠지만 원 데이터가 아닌 정제된 데이터로 학습시키는 것이 필요하다"고 말했다.
최은정기자 ejc@inews24.com▶네이버 채널에서 '아이뉴스24'를 구독해주세요.
▶재밌는 아이뉴스TV 영상보기▶아이뉴스24 바로가기
[ⓒ 아이뉴스24 무단전재 및 재배포 금지]
Copyright © 아이뉴스24. 무단전재 및 재배포 금지.
- SK인포섹·ADT캡스 합병…"3년 내 기업가치 5조 회사로"
- 코리아센터, 11번가서 지분 매각…아마존 협업 '좋다 말았네'
- 김호중만의 '클래식' 파워…더 클래식 앨범 선주문 23만장 돌파
- EU의 디지털 新규제, 위반기업에 '벌금'·'회사분할'
- 韓日 경제인 "양국 정부, 정경분리 입각해 민간 교류 지원 나서야"
- 충북도의회 의장 선거 뒷거래 있었나
- [기가車] '손잡이 안 잡고' 넘어진 승객…책임 떠맡은 운전기사
- '사업 빚더미'에 이혼 결심…남편은 "연금 나눠달라" [결혼과 이혼]
- [오늘의 운세] 7월 5일, 욕심 부리지 말고 새로운 일 시도도 하지 마라
- 소림마라와 신룽푸마라탕, 맞손…공동 업무협약 맺어