분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[내일은 신문왕] 2025 신문과 방송 독자 데이터 분석
공동작성자
이 코드는 뉴스 콘텐츠 데이터를 대상으로 텍스트 분석·유입경로 분석·콘텐츠 효율성 평가를 수행하는 종합 분석 파이프라인이다.
먼저 pandas, konlpy, sklearn, seaborn, networkx 등 라이브러리를 이용해 데이터를 전처리하고 시각화한다. 한글 형태소 분석기 Okt를 통해 제목·본문에서 명사와 영어 단어를 추출하고, 불용어(stopwords) 제거 후 TF-IDF 가중치를 계산하여 핵심 키워드를 파악한다. analyze_data() 함수는 연도·학기별로 단어의 중요도를 분석하고 워드클라우드를 저장하며, visualize_integrated()는 TF-IDF 결과를 기반으로 히트맵과 단어 연관 네트워크를 시각화한다. 이후 analyze_tag_relevance()에서는 기사별 태그와 제목·본문 키워드의 일치율을 계산해 태그의 효율성을 정량적으로 측정한다. 평균 일치율, 겹치는 키워드 수, 상위 기사 예시를 출력하고 결과를 엑셀 파일로 저장한다. (한국어 형태소 분석을 위해서 JDK-자바개발키트가 다운된 환경에서만 코드가 실행됩니다.)
다음 단계인 유입경로 분석에서는 referrer.xlsx, article_metrics_monthly.xlsx, contents.xlsx 데이터를 통합해 검색유입·SNS유입·기타 그룹으로 분류하고, 각 그룹의 평균 공감률(engagement rate)을 비교한다. t-test로 통계적 차이를 검증하고, seaborn 막대그래프로 시각화한다. 또한 카테고리별로 유입경로에 따른 선호 패턴을 도출한다.
마지막으로 조회수 대비 공감·댓글 비율이 높은, 즉 '놓치기 아까운 콘텐츠'를 선별한다. 조회수가 중간 이하이지만 참여도가 높은 기사들을 ‘저평가 콘텐츠’로 간주하고, 제목·카테고리와 함께 순위화하여 CSV로 저장한다. 전체적으로 이 스크립트는 데이터 기반 뉴스 콘텐츠의 키워드 트렌드, 태그 적합도, 독자 반응 및 유입 특성을 통합적으로 분석·시각화하는 코드이다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved