토스 NEXT ML CHALLENGE : 광고 클릭 예측(CTR) 모델 개발

시퀀스 데이터 처리방법 공유 (w/o embedding)

2025.10.13 15:26 459 조회

baseline과 많은 분들이 시퀀스 데이터 처리를 lstm, embedding등과 유사한 방식으로 처리하셨을것 같습니다.

저는 조금 단순한 방식으로 처리했는데, 효과가 괜찮았던것 같아서 공유드립니다.


row별로 sequence의 원소를 value_count한 다음, 해당 값에 log1p를 적용하는식으로 사용했습니다.

  • test prediction시에는 train에 없는 원소는 계산하지 않고, test에 없는 원소는 fillna(0)을 적용한 후 log1p를 적용했습니다(최종 0)

그리고 추가적으로 log1p(seq_len), log1p(seq_nunique), (seq_nunique / seq_len)을 추가해서 사용했습니다.


다른 분들은 어떤 식으로 시퀀스를 처리하셨는지 궁금합니다.


로그인이 필요합니다
0 / 1000
NAJUNGHWAN
2025.10.13 21:23

통계 피처도 나쁘지 않은 선택입니다.실제로 EDA했을 때 CTR이 seq len과 약간의 연관 관계가 있었으니까요. Seq에 대한 도메인 지식이 있는 실무 관점에서는 나쁘지 않은 선택일 수 있겠습니다. 다만 저희 팀이 이를 선택하지 않은 이유는 seq의 길이가 다른 피처와도 linear한 상관관계가 있었기 때문에(예를 들어 hour와 반비례합니다)seq len 단독이 CTR을 대변하진 못한다고 봤던 거 같아요. Private 2위 축하드립니다!