은퇴자 몰린다는 ‘AI 눈알 붙이기’ 뭐길래…
인공지능(AI) 데이터 라벨링을 아시는지.
AI 시대가 도래하고 있다지만, 정작 똑똑한 AI를 만들어내기 위해서는 아직도 방대한 양의 데이터를 별도로 입력한 후 AI를 훈련시켜야 한다. 이런 검수 작업을 모두 사람이 하는데, 이 작업이 바로 ‘데이터 라벨링’이다. 단순히 데이터를 입력하는 것이 아니다. AI가 학습할 데이터를 목적에 맞게 구분하고 속성값을 입력하는 작업을 뜻한다. 최근에는 ‘AI 눈알 붙이기’라는 별칭으로 유명해졌다. 대표적인 부업으로 통하는 ‘인형 눈알 붙이기’만큼 쉽고 단순한 업무로 누구나 참여할 수 있어 중장년층과 장애인 협력을 늘리고 있다는 후문이다. 정말 ‘누구나 쉽게’ 할 수 있는 일일까? AI 모델 학습에 필요한 데이터를 전문적으로 공급하는 기업 ‘바운드포’에서 AI 데이터 라벨링 업무를 체험해봤다.
보수는 “시급 아닌 건당” 기준
데이터 라벨링을 본격적으로 체험하기 전, 가이드라인 교육을 무조건 받아야 한다. 약 1시간 동안 ‘이론 교육’ 시간에 두 가지 주요 데이터 라벨링 방식인 ‘세그멘테이션(Segmentation)’과 ‘바운딩 박스(B-BOX)’ 작업 방법을 배웠다. 세그멘테이션은 이미지에 포함된 객체를 최소 단위인 픽셀(Pixel) 수준으로 세밀하게 구분해 채색하는 것을 의미하고, 바운딩 박스는 객체를 네모난 박스로 감싸는 기법이다.
사실 1시간여 이론 교육만 받고 실제 업무에 참여하기 어렵다. 바운드포는 기본 교육을 포함해 하루 3시간씩 8일간 총 24시간에 걸친 실습 교육을 요구한다. 교육 장소도 본인 집이 아닌 강남과 충무로 등에 마련된 교육장이다. 교육 기간 보수는 따로 지급되지 않지만, 실습 중 수행한 라벨링 작업에 대해서는 소정의 금액이 지급되기도 한다. 바운드포 관계자는 “일부 중장년층은 정부의 취업 지원 프로그램을 통해 교육 기간에도 소정의 지원금을 받으며 참여하고 있다”고 들려줬다. 교육을 모두 이수하고 실습 평가를 통과한 우수자에게는 우수 수료증이 수여된다. 이 수료증을 받으면 실제 업무에 참여할 수 있는 자격이 주어진다. 현재 바운드포에 등록된 데이터 라벨러는 비상시 인력 포함 약 1000여명에 달한다. 보수는 시급이 아닌 라벨링을 완료한 이미지 건수에 따라 책정되는 구조다.
‘건당 3000원’ 라벨링 해보니
‘그림판’ 색칠 잘하면 유리
첫 번째로 도전한 라벨링은 ‘세그멘테이션’ 기법. ‘그림판’처럼 사물이나 공간을 색칠하는 방식으로, AI가 이미지 내 사물을 보다 정교하게 인식할 수 있도록 돕는 작업이다. 가령, 자율주행차의 AI가 도로 위 자동차, 사람, 신호등 등을 구분할 때, 이 세그멘테이션 작업 데이터를 바탕으로 주위 환경을 이해하고 학습할 수 있게 도와주는 식이다. 이 작업은 정교함을 필요로 하기 때문에 이미지 한 건당 3000~4000원이 지급된다.
기자가 배정받은 이미지는 ‘자동차가 달리는 도로’. 자동차 11대가 다니는 도로 옆으로 전철이 지나가는 이미지다. 이미지 속 자동차 11대 각각은 물론 도로는 도로대로, 하늘은 하늘만 구분될 수 있도록 채색해야 한다. 과정은 생각보다 복잡했다. 마우스로 한 픽셀씩 조심조심 경계를 따라 칠해나가다 보니 작업 속도가 매우 느릴 수밖에 없다. 자동차 한 대 경계를 모두 채색하는 데만 5분 이상이 소요됐다. 경계선을 조금이라도 벗어나거나, 객체와 객체 사이 구분이 불명확하면 검수 과정에서 불합격 처리인 ‘반려’가 될 수 있다.
단, 숙련도에 따라 소요 시간은 천차만별이다. 보통 2~3년 경험치가 쌓이면 전체 이미지를 채색하는 데 걸리는 시간이 10분 내로 줄어든다는 게 회사 측 설명. 사진관을 운영하며 데이터 라벨링을 부업으로 하는 한 60대 라벨러는 월 700만원의 수입을 거두기도 했다고. 바운드포 관계자는 “완벽주의에서 벗어나 일단 작업을 시작하는 자세가 중요하다”며 “채색 도구 크기를 줄이고, 테두리에 닫힌 라벨링 공간을 채워주는 기능을 활용하면 더 쉽게 채색할 수 있다”고 팁을 알려줬다.
‘화면 캡처’ 잘하면 ‘클릭당 100원’
다음으로 체험한 ‘바운딩 박스’는 앞선 작업보다 비교적 단순해 보였다. 마치 ‘화면 캡처’를 하듯 이미지 속 사물 경계를 네모난 박스로 감싸면 끝. 세그멘테이션과 마찬가지로 AI가 물체를 인식하고 구분하는 것을 돕는 작업이다. 단 한 번의 클릭으로도 이미지 내 객체를 빠르게 구분할 수 있기 때문에 빠르게 진행되는 장점이 있다. 바운딩 박스는 세그멘테이션에 비해 난이도가 낮은 단순 작업인 만큼, 통상 하나의 박스를 처리하는 이미지 한 건당 100원을 지급받는다.
이 작업에서도 중요한 것은 정확성이다. 사물을 감쌀 때 박스 모서리가 사물 경계선과 완벽하게 일치하거나 최대한 근접하게 그려야 한다. 특히 이미지 내에 여러 객체가 겹치는 경우, 각 객체의 경계를 정확하게 구분해야 한다. 만약 경계선에 빈 공간이 생기거나 불필요한 픽셀이 포함되면 검수 단계에서 역시 공포의 ‘반려’ 처리가 될 수 있다.
실제 작업해보니, 많은 객체가 등장하는 이미지일수록 작업이 까다롭다. 다수 객체가 겹치거나 경계가 명확하지 않은 경우, 여러 번 수정 작업을 거쳐야 했다. 하지만 바운딩 박스는 세그멘테이션에 비해서는 라벨링 ‘초보자’가 진행하기 적합했다. 첫 작업임에도 10분에 10개 이상 이미지를 비교적 완벽히 처리할 수 있었다. 10분에 1000원 이상 번 셈. 그래 봐야 1시간에 6000원으로 최저임금에도 미치지 못하지만.
총평. 두 방식 모두 처음에는 어렵지만, 누구나 할 수 있는 단순 작업이기 때문에 숙달되면 매력적인 재택 알바가 될 법하다. 황인호 바운드포 대표는 “바운드포 라벨링 인력 중 80% 이상이 60대 이상 중장년층이거나 장애인”이라며 “현재 인천, 광주 등 지역에서도 교육 참여 인원을 늘리고 있다”고 말했다.
데이터 라벨링 일자리 전망은?
“전망 밝지만 전문화는 변수”
일자리 전망은 어떨까. AI 데이터 라벨링은 이미 국내외를 포함해 번듯한 재택 알바로 자리 잡았다. 한국수출입은행은 세계 데이터 라벨링 시장 규모가 2021년 10조원에서 2025년 39조원대로 성장할 것으로 내다본다. 그만큼 시장이 확대된다는 뜻이다. 국내에서도 바운드포 외에 데이터 라벨러로 일할 수 있는 플랫폼이 적지 않다. ‘셀렉트스타’ ‘라벨온’ ‘크라우드웍스’ 등이 대표적이다. 상상인증권 보고서에 따르면 ‘크라우드웍스’의 연간 매출액은 지난 2020년 74억원에서 지난해 240억원까지 성장했다.
업계 관계자들은 AI 산업이 성장할수록 데이터 라벨링 일자리 전망은 밝다고 입을 모은다. AI 기술 발전에 따라 데이터 수요도 폭증해 데이터 라벨러의 일감도 늘어나는 구조기 때문. 단, 향후 의료용 AI, 통번역 AI 등 전문적인 데이터를 다루는 라벨링 일감이 많아지는 경우 단순 작업 중심 라벨링 일감이 줄어들 수 있다는 점은 변수다.
셀렉트스타 관계자는 “바운딩 박스와 같이 단순 업무를 요하는 라벨링의 경우 지원 경쟁률이 높지만, 난이도가 높은 업무는 지원자가 부족한 상황”이라며 “최근 AI가 발전됨에 따라 라벨링 산업 초반의 ‘AI 눈알 붙이기’가 아닌 전문성을 요하는 고도화된 라벨링 작업이 필요해졌다”고 분위기를 전한다.
[조동현 기자 cho.donghyun@mk.co.kr, 김범준 인턴기자]
[본 기사는 매경이코노미 제2279호 (2024.10.09~2024.10.15일자) 기사입니다]
Copyright © 매경이코노미. 무단전재 및 재배포 금지.
- 테이블 ‘쾅’ 치며 “술 달라”...문다혜, 식당서 쫓겨나 - 매일경제
- “내 폰 왜 이러지?”...구형 갤럭시폰 ‘무한 재부팅’ 오류 - 매일경제
- 몸값 높아지자 IPO·매각 속도…조 단위 뷰티 ‘대어’ 평가받기도 - 매일경제
- 일본항공의 얄팍함?...韓만 빼고 외국인에 국내선 무료제공 - 매일경제
- “청약통장 해지하지 말걸” 무용론 확산에 더 강력해진 혜택 - 매일경제
- 출산율 오르나?...내년 육아휴직급여 월 최대 250만원 - 매일경제
- [뉴욕증시] 금리·유가 상승 부담 속 증시 일제히 하락 - 매일경제
- SM 이래서 쉬쉬했나...NCT서 방출된 태일 혐의 ‘특수 준강간’ - 매일경제
- [단독]K뷰티 美선봉 ‘조선미녀’, 日 강자 ‘티르티르’ 품었다 ... 3000억 중견기업 등극 - 매일
- “보여줄게 완전히 달라진 남양”...경영 쇄신안 들여다보니 - 매일경제