[기고] AI시대, 데이터의 시대/박찬준 업스테이지 AI 리서치 엔지니어
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
인공지능(AI)은 일상 어디에나 존재한다.
기업 간 거래(B2B)든 기업 대 소비자 거래(B2C)든 상관없이 AI 기반 서비스를 하다 보면 데이터 기록이 쌓인다.
결국 AI 기업 중에서도 데이터 전문, 모델 전문을 넘어서서 모델과 데이터 모두를 잘하는 기업이 앞으로 살아남게 된다.
하지만 대규모 언어 모델(LLM)을 기반으로 생성 AI에 대한 관심이 무척 높아지며 데이터를 쌓는 공정을 설계하는 업무의 중요성이 날로 높아지고 있다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
인공지능(AI)은 일상 어디에나 존재한다.
우리는 매일 포털사이트를 통해 검색을 하며 원하는 정보를 얻고, 언어 장벽을 느낄 때 기계번역기를 사용한다. 일상 속 모든 인공지능 시스템은 크게 ‘데이터’와 ‘코드’로 나누어져 있다. 이들 중에서 코드 즉 모델링을 통한 성능 개선이 아닌 데이터의 품질을 향상시키고 모델의 구조 변경 없이 어떻게 하면 모델의 성능을 향상시킬 수 있을지에 대해 고민하는 분야가 바로 ‘데이터 중심 AI’다.
기업들은 대표적으로 데이터가 자동으로 선순환 구조를 그리는 ‘데이터플라이휠’이라는 방법을 통해 데이터 중심 AI를 적용하고 있다. 기업 간 거래(B2B)든 기업 대 소비자 거래(B2C)든 상관없이 AI 기반 서비스를 하다 보면 데이터 기록이 쌓인다. 예를 들어 유튜브 추천 모델이 사용자의 니즈를 잘 반영해 주는 것은 수집한 사용자 데이터를 모델에 반영했기 때문이다. 즉 지속적으로 쌓이는 데이터를 모델의 학습용으로 가공하고 지속적으로 추가학습을 진행하면서 자연스레 모델의 인식 성능이 높아지는 것이 바로 데이터플라이휠이다.
데이터플라이휠의 핵심은 모델 성능이 안 좋으면 데이터의 양을 늘리는 등의 일방향적인 개선 방식이 아니라 모델의 결과에 따라서 데이터 생성 과정과 공정 등도 점진적으로 개선되는 양방향 선순환 구조라는 점이다. 즉 단순히 데이터를 더 늘리는 양적인 팽창이 아니라 질적인 팽창이 필수다.
서비스 중 발생하는 오류 데이터를 수집하고 데이터의 모호한 분류를 일관되게 수정하는 공정이 모델 성능을 크게 향상시키며 그 가치는 시장이 모델을 통해 평가한다. 결국 AI 기업 중에서도 데이터 전문, 모델 전문을 넘어서서 모델과 데이터 모두를 잘하는 기업이 앞으로 살아남게 된다.
기업은 데이터를 직접 제작하는 작업도 진행하고 있다. 기존 AI 연구들은 대부분 모델에만 집중돼 왔던 게 사실이다. 데이터를 누가 어떻게 만들고 어떤 데이터가 좋은 데이터인지, 그것을 어떻게 만드는지에 관해서는 상대적으로 관심이 부족했다. 하지만 대규모 언어 모델(LLM)을 기반으로 생성 AI에 대한 관심이 무척 높아지며 데이터를 쌓는 공정을 설계하는 업무의 중요성이 날로 높아지고 있다. 데이터 역량은 AI 모델 구축 역량, 서비스 역량과 완전히 다른 영역이므로 데이터 전문가들과 함께 팀을 만드는 것이 앞으로 기업 경쟁력을 좌우하게 될 것으로 예상된다.
연료가 있어야 자동차가 움직이며 재료가 있어야 음식을 만들 수 있다. 이와 마찬가지로 인공지능 시스템도 연료와 재료가 필요하며 이는 바로 데이터다. 생성 AI를 필두로 AI의 신시대가 열리며 많은 사람이 자동차에 해당하는 모델 그 자체에만 관심을 가지고 있지만, 그 연료인 데이터의 중요성은 앞으로 계속 높아질 것이다.
▶ 밀리터리 인사이드 - 저작권자 ⓒ 서울신문사 -
Copyright © 서울신문. 무단전재 및 재배포 금지.
- 쓰촨 대지진 ‘경례아기’, 베이징대 합격 “0.003% 최상위 성적”
- “태극기가 왜 이래”…FIFA 스토어 ‘한국 머플러’ 오류
- “저층 살면 ‘엘베’ 말고 계단 이용해라”…강남 아파트 민원 논란
- “동년배 동성 타깃…신림동 범인, 정유정과 소름 판박이”
- “한국에선 죽고 싶었다”던 女, 멕시코 ‘2천만명 스타’된 사연
- “대변 테러, 이틀 연속 당했다” CCTV 화면 공개한 자영업자
- 850만 유튜버 쯔양 “썸남 있었다” 고백
- ‘가짜 연기’ 발언 손석구, 남명렬에 손편지 사과
- 샤이니 키 “태연과 반신욕 가능”… 태민 반응은
- “제주도 안 갑니다”…올여름 국내 휴가지 ‘이곳’ 가장 붐빈다