2025 신문과 방송 독자 데이터 분석 아이디어 경진대회

아이디어 | 월간 데이콘 | 정형 | 데이터 분석 | 시각화 | 인사이트

한국언론진흥재단 이사장상
533명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

[내일은 신문왕] 2025 신문과 방송 독자 데이터 분석

유톡

공동작성자

2025.10.31 09:23 958 조회 language

  이 코드는 뉴스 콘텐츠 데이터를 대상으로 텍스트 분석·유입경로 분석·콘텐츠 효율성 평가를 수행하는 종합 분석 파이프라인이다.
먼저 pandas, konlpy, sklearn, seaborn, networkx 등 라이브러리를 이용해 데이터를 전처리하고 시각화한다. 한글 형태소 분석기 Okt를 통해 제목·본문에서 명사와 영어 단어를 추출하고, 불용어(stopwords) 제거 후 TF-IDF 가중치를 계산하여 핵심 키워드를 파악한다. analyze_data() 함수는 연도·학기별로 단어의 중요도를 분석하고 워드클라우드를 저장하며, visualize_integrated()는 TF-IDF 결과를 기반으로 히트맵과 단어 연관 네트워크를 시각화한다. 이후 analyze_tag_relevance()에서는 기사별 태그와 제목·본문 키워드의 일치율을 계산해 태그의 효율성을 정량적으로 측정한다. 평균 일치율, 겹치는 키워드 수, 상위 기사 예시를 출력하고 결과를 엑셀 파일로 저장한다. (한국어 형태소 분석을 위해서 JDK-자바개발키트가 다운된 환경에서만 코드가 실행됩니다.)
  다음 단계인 유입경로 분석에서는 referrer.xlsx, article_metrics_monthly.xlsx, contents.xlsx 데이터를 통합해 검색유입·SNS유입·기타 그룹으로 분류하고, 각 그룹의 평균 공감률(engagement rate)을 비교한다. t-test로 통계적 차이를 검증하고, seaborn 막대그래프로 시각화한다. 또한 카테고리별로 유입경로에 따른 선호 패턴을 도출한다.
  마지막으로 조회수 대비 공감·댓글 비율이 높은, 즉 '놓치기 아까운 콘텐츠'를 선별한다. 조회수가 중간 이하이지만 참여도가 높은 기사들을 ‘저평가 콘텐츠’로 간주하고, 제목·카테고리와 함께 순위화하여 CSV로 저장한다. 전체적으로 이 스크립트는 데이터 기반 뉴스 콘텐츠의 키워드 트렌드, 태그 적합도, 독자 반응 및 유입 특성을 통합적으로 분석·시각화하는 코드이다.

PDF

코드