칼로리 소모량 예측 AI 해커톤

알고리즘 | 정형 | 회귀 | 헬스 | RMSE

  • moneyIcon 상금 : 인증서
  • 670명 마감

 

나는 전처리 고민할 시간에 PolynomialFeatures을 써

2023.04.14 02:03 3,003 조회 language

회귀 대회는 처음이라 할 수 있는 거의 모든 Feature Engineering(PolynomialFeatures 제외)을 다 해봤는데도 0.5의 벽을 못넘더군요!
어떤 전처리를 하시길래 이렇게 많은 분들이 0.4~0.5가 나오시는지 신기합니다... 여러분의 전처리도 공유해주세요


분명 떠오르는 건 다 해본 것 같은데 남들과 차이가 뭘까.. 생각하다가 sklearn.preprocessing 홈페이지에 들어가 전처리들을 하나씩 읽어 봤습니다.
그러던 중 sklearn.preprocessing.PolynomialFeatures를 발견하여 저처럼 전처리를 고민하시는 분들에게 도움이 됐으면 하는 마음에 올립니다.


""" Generate a new feature matrix consisting of all polynomial combinations of the features with degree less than or equal to the specified degree. For example, if an input sample is two dimensional and of the form [a, b], the degree-2 polynomial features are [1, a, b, a^2, ab, b^2]. """

홈페이지 설명을 보면 위 글이 적혀있는데요, 각 변수들을 곱하거나 제곱해 새로운 변수를 자동으로 만들어준다? 굉장히 신박한 방법인 것 같습니다. (코드 보시면 변수가 폭발적으로 증가한 것을 보실 수 있습니다) 여러분들도 한 번씩 사용해 보세요!


DACON은 다른 팀과의 협력을 금하고 있기 때문에 코드는 Baseline을 참고하여 작성하였습니다.
제목은 범범범즈님 autogluon 코드공유를 참고했습니다.

코드
로그인이 필요합니다
0 / 1000
임팩트여진족
2023.04.14 10:53

폴리노미알 피쳐를 활용하면 피쳐 복잡도가 증가해서 '안좋다' 라고만 막연히 생각하고 있었는데, 지금처럼 피쳐 수가 많지 않은 경우에는 오히려 더 필요할 수도 있겠네요. 좋은 내용 공유 감사합니다.

설빙더아이스
2023.04.14 11:07

저도 그렇게 생각했는데 어떤 모델을 사용하느냐에 따라 결과가 크게 다른 것 같았습니다!

캣_지피티
2023.04.14 11:02

좋은 인사이트 공유 감사합니다.

설빙더아이스
2023.04.14 11:56

항상 좋은 댓글 감사합니다.

제출수늘려주세요
2023.04.14 14:17

👍

설빙더아이스
2023.04.16 15:44

👍🏻

구름저편
2023.04.15 01:06

새로운 방법 감사합니다 ~~!!
새로운 접근이네용~

설빙더아이스
2023.04.16 15:48

그러게요 저도 처음 써보는 방법입니다!

따봉캣
2023.04.15 01:39

 리더보드에서 RMSE 가 0.16이란 경이로운 점수는 어떻게 나오셨는지.. 대회 끝나고 코드 공유 기대하고 있겠습니다. 좋은 게시글 감사합니다 !!

설빙더아이스
2023.04.16 15:47

감사합니다! 아이디어는 생각보다 별거 없습니다..!

ㅁㅍ
2023.04.15 15:56

지금은 0.4의 벽 넘으셨네요 축하드립니다!

설빙더아이스
2023.04.16 15:45

감사합니다!

범범범즈
2023.04.20 21:29

좋은 글 감사합니다 ㅎㅎ