피처(feature) 추가 팁 드립니다. ^^

전복 나이 예측 AI 해커톤

물린다

2022.03.24 19:01 4,730 조회

제가 R 사용자라서 코드 공유에 어려움이 있네요. ㅠㅠ

나름대로의 새로운 피처를 만들어서 비교해 보고 있습니다.

모델은 h2o를 써서 AutoML을 쓰고 있고, max_runtime_secs를 120초로 설정했습니다. 나머진 디폴트입니다.

알아서 여러 모델 만들고 앙상블 해주기 때문에 상당히 성능이 좋게 나옵니다.

train 데이터를 train과 valid 데이터로 나누어서 train 데이터로 훈련한 후 valid 데이터로 MAE를 구했습니다.

이 과정을 20번 정도씩 반복해 봤습니다. 물론 for 루프를 돌려서요. 매번 train 데이터와 valid 데이터가 랜덤하게 선정됩니다.

AutoML로 120초 제한을 걸어서 돌릴때마다 조금씩 결과가 달라집니다.

같은 120초여도 컴퓨터 성능에 따라서도 조금씩 다른 것 같기도 합니다. 집에 있는 컴퓨터로 하면 성능이 조금 떨어지는 것 같습니다. ^^;

20번씩 반복한 결과를 ANOVA로 비교해 봤습니다.

결과적으로 water라는 피처를 추가했을 때 MAE가 통계적으로 유의하게 감소한 것으로 나타났습니다.

water는 전체 무게 - (껍질 무게 + 껍질을 제외한 무게)로 구했습니다.

전복이 머금은 물이나 전복을 까면서 생긴 피 등이 빠져 나가면서 생긴 차이라고 생각했습니다. 사실 핏물인 셈이죠. 그냥 water라고 썼습니다.

새로운 피처를 추가하기도 하고, 빼보기도 하면서 열심히 테스트 하고 있습니다.

모두 화이팅요. ^^

댓글 8개

로그인이 필요합니다

comment

0 / 1000

나는슬플때파이썬을해

2022.03.24 21:17

우왕 좋은 아이디어네요! 잘 참고하겠습니다
감사합니다!!

백남진

2022.03.25 17:56

Unknown weight로 두어서 F.E했는데 Water이군요,,
감사합니다!

나도한다코딩

2022.04.05 14:46

와 감사합니다

샴샘님

2022.04.06 11:23

감사합니다~

샴샘님

2022.04.06 11:31

삭제된 댓글입니다

여우박사님

2022.04.24 14:47

Feature effect만 비교하기 위해서는 오히려 매번 train 데이터와 valid 데이터가 고정되도록 하는 것이 좋지 않을까요? 매번 다르게 뽑히도록 한 이유가 궁금합니다~

물린다

2022.04.24 19:23

빅데이터라면, 그리고 AutoML이 아니라면 굳이 샘플링을 다시 할 필요가 없겠죠.
빅데이터가 아니라서 같은 모델이라도 샘플링된 데이터에 따라 결과가 다르게 나올 수 있습니다. 샘플링에 의한 효과를 최대한 줄이기 위해 여러 번 샘플링을 했습니다. kfold validation과 비슷한 맥락이라고 보셔도 될 것 같네요.

여행지추천받아요

2022.05.16 10:47

좋은 컨셉이네요!

📣 댓글 작성 창의 위치가 댓글 리스트 상단으로 이동했습니다!