분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
EDA 진행한 코드 공유 드립니다 :)
그동안에 배운 내용으로 EDA를 진행을 해봤습니다 !
마지막에 추가적으로 공휴일 feature를 추가해 주었고,
사용한 feature는 {물품 , 회사 , 지역 , 휴일 , 월 , 일 , 요일(월~일) }로 지정하였으며
수치형 데이터가 존재하지 않아서 예측에 어려움이 있지 않았을까 싶습니다 !
카테고리 데이터인 물품, 회사, 지역은 label encoder를 통해서 변환시켰고,
date날짜들인 월, 일은 그대로 사용하였습니다.
"순무" / "감귤" / "그외" 로 그룹을 나누어서 예측 모델에 fit 하였고 (그외로 한 이유는 3개의 특산물이 비슷한 주기성을 보여주어서 그랬습니다)
모델을 선정하는데 pycaret을 사용하여 성능이 좋은 모델을 선택 하였습니다
이후 test 데이터에서 item별로 학습된 모델에 input을 넣어서 예측을 진행하였습니다.
아래는 test데이터 예측 코드입니다 :)
from tqdm import tqdm
pred_list = []
for record in tqdm(test_df.values):
record_df = pd.DataFrame(record.reshape(1,-1), columns = test_df.columns)
if record_df['item'].values[0] == 0:
pred = tangerines_model.predict(record_df)
elif record_df['item'].values[0] == 3:
pred = redish_model.predict(record_df)
else:
pred = other_model.predict(record_df)
pred_list.append(int(pred[0])) # list에서 int값으로 바꿔주기
스코어는 809점 이었고, 예측 값에는 -값(음수 값)도 존재했습니다
해당 처리를 잘해주면 조금 더 올라가지 않을까 싶습니다 :)
감사합니다 !
좋은 분석 공유 감사합니다. 한가지 궁금한 것이 ANOVA 에서 p-value가 0.05 이하이면 귀무가설을 기각하고, 대립가설을 채택하는 데 귀무가설이 각 회사의 평균값은 같다이기 떄문에, 각 회사의 평균은 같지 않을 것이다 라는 대립가설을 채택하는 것이 맞는 것이 아닌가 싶습니다!
헉 !! 그러게요 !
회사들의 평균 값이 같지 않다가 맞는 거네요 !!
정정 해주셔서 감사합니다 👍👍👍
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
소중한 인사이트 공유 감사합니다!