2025 신문과 방송 독자 데이터 분석 아이디어 경진대회

아이디어 | 월간 데이콘 | 정형 | 데이터 분석 | 시각화 | 인사이트

  • moneyIcon 상금 : 한국언론진흥재단 이사장상
  • 474명 마감

 

[ykwongok]2025 신문과 방송 독자 데이터 분석 아이디어 경진대회

2025.10.30 22:51 119 조회 language

1. 환경 설정
os, pandas, numpy, matplotlib 등 필수 라이브러리 불러옴
운영체제에 따라 한글 폰트 자동 설정 (Windows, Mac, Linux 모두 호환)
실행 위치 기준으로 data 폴더 경로를 자동 인식 → 다른 PC에서도 실행 가능함
2. 데이터 로드 및 전처리
referrer.xlsx, article_metrics_monthly.xlsx, contents.xlsx 세 파일 불러오기
결측치(NaN)는 0으로 대체, "views_total", "share" 등의 열을 숫자형으로 변환
세 파일을 article_id 기준으로 병합 → 통합 기사 데이터프레임 생성함
3. 헤드라인 특징 추출
헤드라인 내 문장부호·키워드·길이 분석
(?, !, 숫자, 따옴표, “특종·속보·인터뷰” 등 포함 여부)
이를 바탕으로 헤드라인을 6가지 유형(감탄형, 단문형, 숫자형, 일반형, 이슈형, 질문형) 으로 분류함
각 기사별로 조회수 대비 공유율(share_per_view) 계산
4. 이상치 제거 및 요약 통계
조회수 10 미만 기사 및 공유율 1.0(100%) 초과 데이터 제거하였음
유형별 평균 길이, 평균 조회수, 평균 공유율 계산
이를 통해 각 헤드라인 형태의 확산력(공유 중심)을 수치로 비교함
5. 시각화 (4종 그래프)

PDF
코드