토스 NEXT ML CHALLENGE : 광고 클릭 예측(CTR) 모델 개발

알고리즘 | 채용 | 토스 | 정형 | CTR | 머신러닝 | 분류

  • moneyIcon 상금 : 1,000 만원
  • 1,586명 종료까지 D-32
2025.09.09 09:23 335 조회
# clicked == 1 데이터
clicked_1 = all_train[all_train['clicked'] == 1]

# clicked == 0 데이터에서 동일 개수x2 만큼 무작위 추출 (다운 샘플링)
clicked_0 = all_train[all_train['clicked'] == 0].sample(n=len(clicked_1)*2, random_state=42)

# 두 데이터프레임 합치기
train = pd.concat([clicked_1, clicked_0], axis=0).sample(frac=1, random_state=42).reset_index(drop=True)


할때마다 RAM이 53까지 쳐서 코렙이나 로컬에서 죽는 현상이 있습니다...데이터가 너무 많아서 그런것 같은데 혹시 다른 방법을 알 수 있을까요...?

로그인이 필요합니다
0 / 1000
강아지귀여워
2025.09.09 09:56

polars같은 lazy loading이 잘 구현된 라이브러리들이 많습니다