분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[ykwongok]2025 신문과 방송 독자 데이터 분석 아이디어 경진대회
1. 환경 설정
os, pandas, numpy, matplotlib 등 필수 라이브러리 불러옴
운영체제에 따라 한글 폰트 자동 설정 (Windows, Mac, Linux 모두 호환)
실행 위치 기준으로 data 폴더 경로를 자동 인식 → 다른 PC에서도 실행 가능함
2. 데이터 로드 및 전처리
referrer.xlsx, article_metrics_monthly.xlsx, contents.xlsx 세 파일 불러오기
결측치(NaN)는 0으로 대체, "views_total", "share" 등의 열을 숫자형으로 변환
세 파일을 article_id 기준으로 병합 → 통합 기사 데이터프레임 생성함
3. 헤드라인 특징 추출
헤드라인 내 문장부호·키워드·길이 분석
(?, !, 숫자, 따옴표, “특종·속보·인터뷰” 등 포함 여부)
이를 바탕으로 헤드라인을 6가지 유형(감탄형, 단문형, 숫자형, 일반형, 이슈형, 질문형) 으로 분류함
각 기사별로 조회수 대비 공유율(share_per_view) 계산
4. 이상치 제거 및 요약 통계
조회수 10 미만 기사 및 공유율 1.0(100%) 초과 데이터 제거하였음
유형별 평균 길이, 평균 조회수, 평균 공유율 계산
이를 통해 각 헤드라인 형태의 확산력(공유 중심)을 수치로 비교함
5. 시각화 (4종 그래프)
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved