2025 신문과 방송 독자 데이터 분석 아이디어 경진대회

아이디어 | 월간 데이콘 | 정형 | 데이터 분석 | 시각화 | 인사이트

  • moneyIcon 상금 : 한국언론진흥재단 이사장상
  • 474명 마감

 

코드 설명

2025.10.29 11:15 139 조회 language

데이터 로드
파일:
contents.xlsx: 기사 메타(article_id, category, title, content, date, tag, source_url)
article_metrics_monthly.xlsx: 월별 반응(article_id, period, comments, likes, views_total)
referrer.xlsx: 유입경로(article_id, period, referrer, referrer_detail, share …)
demographics_part001/002.xlsx: 인구통계(article_id, period, age_group, gender, views, ratio)
처리: demographics는 part001/002를 concat으로 묶어서 하나로 사용. 3) 전처리
date를 datetime으로, period는 월 주기(YYYY-MM) → Period('M') → period_ts(Timestamp) 로 통일하는 함수 to_period_month 사용.

metrics 중심으로 병합:
metrics + contents : article_id 기준 left join
referrer/demographics는 (article_id, period) 기준으로 붙임
메모리 폭발 방지:
referrer는 같은 (article_id, period)에 유입경로가 다수라서 바로 붙이면 조인 폭발 →
ref_top1: (article_id, period)별 share가 가장 큰 유입경로 1행만 남겨 붙임.
컬럼 정리: views_total → views_month(가독성), 범주형/수치형 다운캐스팅(선택).
핵심 분석-> 카테고리별 평균 월 조회수, 세대별(연령대) 총 조회수, 유입경로별 평균 반응, 상관관계(조회,공감,댓글), 월별 총 조회수 추이, 제목 워드클라우드, 유입경로x세대 교차분석 히트맵, 카테고리 전월 대비 성장률, 참여지수KPI. 

PDF
코드