분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
토스 NEXT ML CHALLENGE : 광고 클릭 예측(CTR) 모델 개발
시퀀스 데이터 처리방법 공유 (w/o embedding)
baseline과 많은 분들이 시퀀스 데이터 처리를 lstm, embedding등과 유사한 방식으로 처리하셨을것 같습니다.
저는 조금 단순한 방식으로 처리했는데, 효과가 괜찮았던것 같아서 공유드립니다.
row별로 sequence의 원소를 value_count한 다음, 해당 값에 log1p를 적용하는식으로 사용했습니다.
그리고 추가적으로 log1p(seq_len), log1p(seq_nunique), (seq_nunique / seq_len)을 추가해서 사용했습니다.
다른 분들은 어떤 식으로 시퀀스를 처리하셨는지 궁금합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
통계 피처도 나쁘지 않은 선택입니다.실제로 EDA했을 때 CTR이 seq len과 약간의 연관 관계가 있었으니까요. Seq에 대한 도메인 지식이 있는 실무 관점에서는 나쁘지 않은 선택일 수 있겠습니다. 다만 저희 팀이 이를 선택하지 않은 이유는 seq의 길이가 다른 피처와도 linear한 상관관계가 있었기 때문에(예를 들어 hour와 반비례합니다)seq len 단독이 CTR을 대변하진 못한다고 봤던 거 같아요. Private 2위 축하드립니다!