분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
신문과 방송 독자 데이터 분석 아이디어 경진대회
먼저 데이터를 불러온 뒤 pandas를 이용해 전처리를 수행하고, 기간(period)을 월 단위로 변환하였으며, 성별(gender)과 연령(age_group)의 표기를 일관되게 정제하였다. 조회수(views, views_total) 컬럼은 수치형으로 변환 후 결측치와 이상치를 제거하여 데이터의 신뢰도를 높였다.
이후 demographics와 metrics 데이터를 article_id와 period를 기준으로 병합하여 분석용 통합 데이터를 구축하였다. 연령·성별별 월별 조회수 추세(A1)는 groupby()와 nlargest()를 사용해 상위 10개 타겟군만 시각화하였고, 타겟군별 최적 발행 월(A2)은 views / total_views로 점유율(share)을 계산해 최대 점유율 상위 10개 그룹을 선별하였다.
카테고리별 월별 조회수 추세(B1)에서는 category별 총 조회수를 집계하고 상위 10개 카테고리를 추출했으며, sns.lineplot()을 이용해 월별 변화를 확인했다. 이어서 카테고리별 피크월 분석(B2)에서는 각 카테고리의 최대 조회수를 기록한 시점을 idxmax()로 찾아 정렬해 시각화하였다.
마지막으로 카테고리 집중 패턴 분석에서는 히트맵(B3)과 스택 영역 그래프(B4)를 사용했다. 히트맵은 pivot()으로 월×카테고리 구조를 만든 뒤 sns.heatmap()으로 시각화했고, 스택 영역 그래프는 월별 구성비(views_total / period별 합계)를 계산해 stackplot()으로 표현했다.
전체적으로 groupby(), merge(), pivot(), nlargest(), idxmax() 등의 데이터 처리 문법과 seaborn, matplotlib의 시각화 함수들을 활용하여, 상위 10개 그룹을 중심으로 주요 독자층의 활동 시기와 콘텐츠 집중 패턴을 도출한 코드 구조로 구성되었다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved