2025 신문과 방송 독자 데이터 분석 아이디어 경진대회

아이디어 | 월간 데이콘 | 정형 | 데이터 분석 | 시각화 | 인사이트

  • moneyIcon 상금 : 한국언론진흥재단 이사장상
  • 474명 마감

 

제목은 화났는데 본문은 평온하다 감정 과장 자동 탐지 모델

2025.10.30 21:06 134 조회 language

1. 데이터 준비

open.zip 압축파일을 자동 탐색 후 해제하고, 내부의 contents, metrics, referrer, demographics 엑셀파일을 불러옵니다.

파일 인코딩(UTF-8/CP949 등)과 포맷(xlsx/csv)을 자동 감지합니다.

각 데이터의 키(기사 ID)와 기간(period)을 정규화하고 중복을 제거합니다.

 2. 데이터 병합 및 가공

기사 정보(contents)에 조회수·댓글·좋아요(metrics)를 병합합니다.

참조 경로(referrer)와 성별·연령별 시청통계(demographics)도 가능하면 추가 결합합니다.

최종적으로 기사별 주요 텍스트(제목, 본문, 카테고리 등)와 수치 데이터가 결합된 df를 생성합니다.

 3. 감정 분석

transformers의 **다국어 BERT 감정 분석 모델(nlptown/bert-base-multilingual-uncased-sentiment)**을 불러와 제목과 본문을 각각 분석합니다.

1~5점 감정 레이블을 –1~+1 스코어로 변환하여, 긍정/부정 강도를 수치화합니다.

너무 긴 본문은 512토큰 단위로 나눠 평균 가중합으로 계산합니다.

모델 사용이 불가능할 경우엔 감정 단어(“충격”, “행복” 등) 기반의 단순 대체 방식을 사용합니다.

 4. 감정 왜곡 지수 계산

fake_rage_index = |제목 감정| - |본문 감정|
→ 제목이 본문보다 감정적으로 더 자극적일수록 값이 커짐.

상위 90% 이상을 “주의 요망”, 95% 이상을 “과장 경고”로 분류합니다.

 5. 시각화 및 예시

산점도(제목 vs 본문 감정)와 카테고리별 상자그림(boxplot)으로 왜곡 분포를 시각화합니다.

예시 기사 2건을 테스트해 실제 왜곡지수와 경고 태그를 출력합니다.

요약:
이 코드는 언론 기사 데이터를 자동으로 정리한 뒤, 제목과 본문의 감정 불일치를 분석하여 “과장된 헤드라인”을 탐지·시각화하는 완전 자동화된 감정 분석 파이프라인입니다.

PDF
코드