분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
제목은 화났는데 본문은 평온하다 감정 과장 자동 탐지 모델
1. 데이터 준비
open.zip 압축파일을 자동 탐색 후 해제하고, 내부의 contents, metrics, referrer, demographics 엑셀파일을 불러옵니다.
파일 인코딩(UTF-8/CP949 등)과 포맷(xlsx/csv)을 자동 감지합니다.
각 데이터의 키(기사 ID)와 기간(period)을 정규화하고 중복을 제거합니다.
2. 데이터 병합 및 가공
기사 정보(contents)에 조회수·댓글·좋아요(metrics)를 병합합니다.
참조 경로(referrer)와 성별·연령별 시청통계(demographics)도 가능하면 추가 결합합니다.
최종적으로 기사별 주요 텍스트(제목, 본문, 카테고리 등)와 수치 데이터가 결합된 df를 생성합니다.
3. 감정 분석
transformers의 **다국어 BERT 감정 분석 모델(nlptown/bert-base-multilingual-uncased-sentiment)**을 불러와 제목과 본문을 각각 분석합니다.
1~5점 감정 레이블을 –1~+1 스코어로 변환하여, 긍정/부정 강도를 수치화합니다.
너무 긴 본문은 512토큰 단위로 나눠 평균 가중합으로 계산합니다.
모델 사용이 불가능할 경우엔 감정 단어(“충격”, “행복” 등) 기반의 단순 대체 방식을 사용합니다.
4. 감정 왜곡 지수 계산
fake_rage_index = |제목 감정| - |본문 감정|
→ 제목이 본문보다 감정적으로 더 자극적일수록 값이 커짐.
상위 90% 이상을 “주의 요망”, 95% 이상을 “과장 경고”로 분류합니다.
5. 시각화 및 예시
산점도(제목 vs 본문 감정)와 카테고리별 상자그림(boxplot)으로 왜곡 분포를 시각화합니다.
예시 기사 2건을 테스트해 실제 왜곡지수와 경고 태그를 출력합니다.
요약:
이 코드는 언론 기사 데이터를 자동으로 정리한 뒤, 제목과 본문의 감정 불일치를 분석하여 “과장된 헤드라인”을 탐지·시각화하는 완전 자동화된 감정 분석 파이프라인입니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved