빅데이터 조사 어떻게 했나

나윤석 기자 2024. 3. 4. 11:57
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

문화일보가 빅데이터 조사업체인 타파크로스에 의뢰해 분석한 '22대 총선보고서'는 지난해 11월 1일부터 올해 2월 28일까지 총 355만977건의 온라인 데이터를 바탕으로 이뤄졌다.

인스타그램·유튜브·트위터·블로그·온라인 커뮤니티 등 소셜 미디어와 함께 포털 뉴스 및 일간지·방송 기사 등에 언급된 355만977건(게시글은 214만8103건, 댓글은 140만2874건)을 분석 대상으로 했다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

기사·소셜미디어·커뮤니티
게시글·댓글 355만건 분석

문화일보가 빅데이터 조사업체인 타파크로스에 의뢰해 분석한 ‘22대 총선보고서’는 지난해 11월 1일부터 올해 2월 28일까지 총 355만977건의 온라인 데이터를 바탕으로 이뤄졌다. 인스타그램·유튜브·트위터·블로그·온라인 커뮤니티 등 소셜 미디어와 함께 포털 뉴스 및 일간지·방송 기사 등에 언급된 355만977건(게시글은 214만8103건, 댓글은 140만2874건)을 분석 대상으로 했다.

문화일보와 타파크로스는 ‘친명·비명 공천 갈등’과 ‘친윤 양지 공천’ 등과 함께 선거 프레임(한동훈의 운동권 청산론 vs 이재명의 정권심판론), 위성정당 논란 및 의대 증원 이슈에 대한 빅데이터 내용 분석을 진행했다. 다만 단순한 클릭 유도를 위한 광고·홍보성 글이나, 주식·부업 등과 관련된 게시글은 관련도가 낮다고 보고 분석 대상에서 제외했다. 또 댓글도 2, 3차적 단문 언급이라는 점에서 세부분석에서는 제외했다. 타파크로스 관계자는 “댓글의 경우 대부분 길이가 짧아 긍정·부정 여부를 식별하기엔 정확도가 떨어진다”고 설명했다. 이슈별 긍정·부정·중립 담론은 빅데이터 시스템의 긍정·부정어 사전을 활용했다.

나윤석 기자 nagija@munhwa.com

Copyright © 문화일보. 무단전재 및 재배포 금지.

이 기사에 대해 어떻게 생각하시나요?