'미세먼지 농도' 예측…어떤 데이터가 쓸모 있나

이승우 2022. 11. 13. 18:10
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

마지막으로 해볼 인공지능(AI) 모델링은 '미세먼지 수치 예측'이다.

주어진 데이터는 측정 일자의 평균 온도와 습도, 미세먼지 농도, 초미세먼지 농도, 이산화탄소(CO2) 농도, 소음, 유해가스 농도, 쾌적지수, 그리고 다음날(D+1) 미세먼지 평균 농도 등이다.

D+1 미세먼지 농도를 아웃풋 데이터로 옮겨놓고 '학습 시작'을 누르면 AI 모델이 만들어진다.

AI 모델에 새로운 데이터를 입력하면 다음날 미세먼지 농도를 예측할 수 있다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

'코알못' 기자 AICE 도전기 (5)·끝

마지막으로 해볼 인공지능(AI) 모델링은 ‘미세먼지 수치 예측’이다. 주어진 데이터는 측정 일자의 평균 온도와 습도, 미세먼지 농도, 초미세먼지 농도, 이산화탄소(CO2) 농도, 소음, 유해가스 농도, 쾌적지수, 그리고 다음날(D+1) 미세먼지 평균 농도 등이다.

맞혀야 하는 D+1 미세먼지 농도가 레이블(label), 그 외의 정보는 피처(feature)다. 쓸모 있는 데이터와 그렇지 않은 데이터를 가려내기 위해 에이아이두 이지(AIDU ez)를 실행하고 데이터 분석에 나섰다.

‘기초 정보 분석’ 탭에서 항목별 데이터를 보면 결과에 영향을 주지 않는 데이터를 볼 수 있다. 행 번호를 기록한 인덱스와 모두 동일한 값을 보여주는 장치 서비스 ID, 하나의 값이 대다수를 차지하는 장치 모델명 등이 대표적이다. 평균 CO2 농도는 전체 2만 개 데이터 중 98.6%의 값이 ‘0’이라는 사실도 알 수 있다. 이 같은 데이터를 AI에 학습시키면 예측의 정확도를 떨어뜨릴 수 있으니 삭제한다.

다음으로 할 일은 값이 없는 데이터, 결측값을 채우는 일이다. 측정 범위와 평균 온도 데이터는 각각 300여 개의 결측값이 존재한다. ‘데이터 가공’ 탭에서 손쉽게 결측값을 입력할 수 있다. 측정 범위는 최빈값을, 평균 온도는 평균값을 선택했다.

데이터 전처리를 마쳤다면 AI 모델 학습을 시작할 차례다. 필요 없는 인덱스, 장비, CO2 등의 데이터는 피처에서 제외했다. 장소 코드 데이터의 유형은 숫자형(numerical)에서 범주형(category)으로 바꿔야 한다. 숫자형으로 두면 AI가 학습 과정에서 숫자 크기에 따른 가중치를 줄 수 있어서다.

D+1 미세먼지 농도를 아웃풋 데이터로 옮겨놓고 ‘학습 시작’을 누르면 AI 모델이 만들어진다. 변수 영향도를 확인한 결과 평균 쾌적지수가 다음날 미세먼지 농도에 가장 큰 영향을 미친다는 사실을 확인할 수 있다. AI 모델에 새로운 데이터를 입력하면 다음날 미세먼지 농도를 예측할 수 있다.

앞서 배운 타이타닉 생존자 예측 문제는 생존과 사망 가운데 하나를 예측하는 ‘분류(classification)’에 해당한다. 미세먼지 예측은 구체적인 수치를 맞히는 ‘회귀(regression)’ 문제로 볼 수 있다. 분류와 회귀는 머신러닝 방식 가운데 정답을 주고 AI를 학습시키는 ‘지도 학습’의 대표적인 유형이다. 제1회 AICE 정기시험에서 도 분류와 회귀에 관한 문제가 하나씩 출제됐다.

이승우 기자 leeswoo@hankyung.com

해외투자 '한경 글로벌마켓'과 함께하세요
한국경제신문과 WSJ, 모바일한경으로 보세요

Copyright © 한국경제. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?