제주 특산물 가격 예측 AI 경진대회

EDA 진행한 코드 공유 드립니다 :)

2023.11.13 14:21 2,746 조회 language

그동안에 배운 내용으로 EDA를 진행을 해봤습니다 !

마지막에 추가적으로 공휴일 feature를 추가해 주었고,
사용한 feature는 {물품 , 회사 ,  지역 ,  휴일 ,  월 , 일 , 요일(월~일) }로 지정하였으며
수치형 데이터가 존재하지 않아서 예측에 어려움이 있지 않았을까 싶습니다 !

카테고리 데이터인 물품, 회사, 지역은 label encoder를 통해서 변환시켰고,
date날짜들인 월, 일은 그대로 사용하였습니다.

"순무" / "감귤" / "그외" 로 그룹을 나누어서 예측 모델에 fit 하였고 (그외로 한 이유는 3개의 특산물이 비슷한 주기성을 보여주어서 그랬습니다)
모델을 선정하는데 pycaret을 사용하여 성능이 좋은 모델을 선택 하였습니다
이후 test 데이터에서 item별로 학습된 모델에 input을 넣어서 예측을 진행하였습니다.

아래는 test데이터 예측 코드입니다 :) 
from tqdm import tqdm
pred_list = []
for record in tqdm(test_df.values):
    record_df = pd.DataFrame(record.reshape(1,-1), columns = test_df.columns)
    
    if record_df['item'].values[0] == 0:
        pred = tangerines_model.predict(record_df)
    elif record_df['item'].values[0] == 3:
        pred = redish_model.predict(record_df)
    else:
        pred = other_model.predict(record_df)
    pred_list.append(int(pred[0])) # list에서 int값으로 바꿔주기

스코어는 809점 이었고, 예측 값에는 -값(음수 값)도 존재했습니다
해당 처리를 잘해주면 조금 더 올라가지 않을까 싶습니다 :)

감사합니다 !

코드
로그인이 필요합니다
0 / 1000
hkhk
2023.11.14 22:46

소중한 인사이트 공유 감사합니다!

하워드
2023.11.16 23:56

좋은 분석 공유 감사합니다. 한가지 궁금한 것이 ANOVA 에서 p-value가 0.05 이하이면 귀무가설을 기각하고, 대립가설을 채택하는 데 귀무가설이 각 회사의 평균값은 같다이기 떄문에, 각 회사의 평균은 같지 않을 것이다 라는 대립가설을 채택하는 것이 맞는 것이 아닌가 싶습니다!

세상만사훈훈하게
2023.11.17 10:39

헉 !! 그러게요 !
회사들의 평균 값이 같지 않다가 맞는 거네요 !! 

정정 해주셔서 감사합니다  👍👍👍