분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
코드 설명
데이터 로드
파일:
contents.xlsx: 기사 메타(article_id, category, title, content, date, tag, source_url)
article_metrics_monthly.xlsx: 월별 반응(article_id, period, comments, likes, views_total)
referrer.xlsx: 유입경로(article_id, period, referrer, referrer_detail, share …)
demographics_part001/002.xlsx: 인구통계(article_id, period, age_group, gender, views, ratio)
처리: demographics는 part001/002를 concat으로 묶어서 하나로 사용. 3) 전처리
date를 datetime으로, period는 월 주기(YYYY-MM) → Period('M') → period_ts(Timestamp) 로 통일하는 함수 to_period_month 사용.
metrics 중심으로 병합:
metrics + contents : article_id 기준 left join
referrer/demographics는 (article_id, period) 기준으로 붙임
메모리 폭발 방지:
referrer는 같은 (article_id, period)에 유입경로가 다수라서 바로 붙이면 조인 폭발 →
ref_top1: (article_id, period)별 share가 가장 큰 유입경로 1행만 남겨 붙임.
컬럼 정리: views_total → views_month(가독성), 범주형/수치형 다운캐스팅(선택).
핵심 분석-> 카테고리별 평균 월 조회수, 세대별(연령대) 총 조회수, 유입경로별 평균 반응, 상관관계(조회,공감,댓글), 월별 총 조회수 추이, 제목 워드클라우드, 유입경로x세대 교차분석 히트맵, 카테고리 전월 대비 성장률, 참여지수KPI.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved