분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[GOD]기사 분야별 키워드와 조회수 영향 분석
이 코드는 2023년 7월부터 2025년 8월까지의 기사 데이터를 이용해 "기사 제목에 어떤 키워드가 들어가면 조회수가 높아지는가"를 보기 좋게 정리하는 파이프라인입니다.
먼저 월별로 쌓여있는 article_metrics_monthly.xlsx를 불러와 기간을 필터링한 뒤, 조회수를 평균 내어 기사 단위 데이터로 만들고 contents.xlsx와 병합해 한 행에 "기사 정보 + 평균 조회수 정보"가 다 들어가 있게 만듭니다.
그다음 분석을 위해 기사를 6개의 분야(정치, 스포츠, 경제, 사회, 국제, 연애/문화)로 나누는데, 이때 기사 제목에 포함된 단어를 기준으로 분류합니다. 각 분야마다 대표 키워드들을 미리 정해두고, 제목에 해당 키워드가 들어 있으면 그 분야 기사로 본다는 단순·명시적 규칙이라 재현성이 높습니다. 개인 이름은 일시적 이슈로 조회수를 과하게 끌어올려 분야 비교를 왜곡할 수 있어 의도적으로 제외했습니다.
분야별로 묶은 뒤, 단순 평균 조회수만 보지 않고 정규화 점수를 새로 만들어 비교합니다. 이렇게 진행하면 기사 수가 너무 적어 우연히 평균이 높게 나온 분야를 걸러내고, 적당히 기사가 많고 그중 조회수도 높은 분야를 위로 올릴 수 있습니다.
마지막으로 결과와 각 분야 내부의 키워드별 TOP10을 막대그래프로 그려서 어떤 분야가 실질적으로 트래픽을 만들었는지 시각적으로 확인하도록 한 코드입니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved