금융 문자 분석 경진대회

알고리즘 | 텍스트 | 분류 | 금융 | AUC

  • moneyIcon 상금 : 2,000만원
  • 1,453명 마감

 

train label 문제.

2020.01.07 15:28 5,443 조회

잘못되어 있는 label이 있는것 같은데 예를들면


'(광고) 정관장에서 미리 설 준비하시고 특별한 혜택 받으세요!! 예약기간 : 13(화)  19(월) 행사내용 :- 밝을윤세트 은혜은세트 원앙세트 3종 구매 예약시 5% 포인트 추가 적립- 예약방법은 매장으로 문의하여 주세요. 20만원 입 시 1만원 할인- 기간:11128까지적용카드: 현대이마트카드.삼성카드.국민카드.현대카드.카드 결재 시 적용됨. 예약문의 : 정관장 서울 이마트가양점 전화:-- 무료수신거부 : --(광고)정관장 사전예'


이 텍스트의 경우 단순 스미싱이 아니라 단순 광고라고 생각되는데 실제는 스미싱으로 label되어 있습니다. train-set에서는 데이터가 많다보니 그럴 수 있다고 생각합니다. 다만 평가할때도 이렇게 label이 잘못되어 평가 되기도 하는지 궁금합니다.

로그인이 필요합니다
0 / 1000
DACONIO
2020.01.12 19:22

안녕하세요 데이콘입니다.
라벨은 특정 규칙에 의해 설정되었으며,  해당 라벨은 오류가 아닙니다.
감사합니다 :)

뚱냥이
2020.01.07 15:53

답변감사합니다.
어떤 규칙에 의해 기계적으로 설정된건가요? 그렇다면 상기 예시의 텍스트가 test-set에 있는경우 마찬가지로 스미싱으로 판단하는거라고 제가 이해하면 될까요?

DACONIO
2020.01.07 18:17

규칙은 말씀드릴 수 없지만, 상기 예시의 텍스트가 test-set에 있는 경우 스미싱으로 판단하시면 됩니다.
감사합니다 :)