시퀀스 데이터 처리방법 공유 (w/o embedding)

토스 NEXT ML CHALLENGE : 광고 클릭 예측(CTR) 모델 개발

jmkim1503

2025.10.13 15:26 978 조회

baseline과 많은 분들이 시퀀스 데이터 처리를 lstm, embedding등과 유사한 방식으로 처리하셨을것 같습니다.

저는 조금 단순한 방식으로 처리했는데, 효과가 괜찮았던것 같아서 공유드립니다.

row별로 sequence의 원소를 value_count한 다음, 해당 값에 log1p를 적용하는식으로 사용했습니다.

test prediction시에는 train에 없는 원소는 계산하지 않고, test에 없는 원소는 fillna(0)을 적용한 후 log1p를 적용했습니다(최종 0)

그리고 추가적으로 log1p(seq_len), log1p(seq_nunique), (seq_nunique / seq_len)을 추가해서 사용했습니다.

다른 분들은 어떤 식으로 시퀀스를 처리하셨는지 궁금합니다.

댓글 1개

로그인이 필요합니다

comment

0 / 1000

NAJUNGHWAN

2025.10.13 21:23

통계 피처도 나쁘지 않은 선택입니다.실제로 EDA했을 때 CTR이 seq len과 약간의 연관 관계가 있었으니까요. Seq에 대한 도메인 지식이 있는 실무 관점에서는 나쁘지 않은 선택일 수 있겠습니다. 다만 저희 팀이 이를 선택하지 않은 이유는 seq의 길이가 다른 피처와도 linear한 상관관계가 있었기 때문에(예를 들어 hour와 반비례합니다)seq len 단독이 CTR을 대변하진 못한다고 봤던 거 같아요. Private 2위 축하드립니다!

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!

목록으로

제출쪽 관련 문의

대회 - 2025 신문과 방송 독자 데이터 분석 아이디어 경진대회

8달 전

현재 글

시퀀스 데이터 처리방법 공유 (w/o embedding)

대회 - 토스 NEXT ML CHALLENGE : 광고 클릭 예측(CTR) 모델 개발

8달 전

데이터 논문 사용 신청

대회 - 음성 감정 인식 AI 경진대회 월간 데이콘

8달 전