온라인 채널 제품 판매량 예측 AI 온라인 해커톤

메타데이터 활용 관련 질문

2023.08.18 17:46 2,492 Views

안녕하세요.

기존에 판매량 데이터만을 가지고 모델 학습을 진행하다, 브랜드 언급량 메타 데이터를 학습 데이터에 추가하여 모델을 돌려 봤는데요.

메타 데이터를 활용하기 전보다 오히려 정확도가 떨어졌네요..(0.51->0.42)

혹시 비슷한 상황을 겪으신 분이 계실까요? 메타 데이터 활용 방식이 잘못 된 건지, 의견 부탁 드립니다.  

로그인이 필요합니다
0 / 1000
시나몬롤
2023.08.19 11:52

저도 브랜드 메타 데이터를 활용하고자 하는데, 브랜드 언급량 메타 데이터를 학습 데이터에 어떻게 추가하셨나요??

EISLab_이희원
2023.08.19 16:21

저는 메타 데이터를 추가했을 때 성능이 더 올라갔었는데,
성능이 떨어졌다는 것은 아마도 과적합이 된 것 같네요

iiioo24
2023.08.20 21:53

메타데이터 어떻게 연결해서 활용하셨는지 여쭤봐도 될까요?

zapzook
2023.08.22 17:32

혹시 메타 데이터에도 똑같이 min-max scaling을 따로 적용하셨을까요?? 

EISLab_이희원
2023.08.22 17:39

메타데이터는 그냥 기존 판매량 데이터에 쌓았습니다.
메타데이터에도 min-max scaling을 적용했을 때, 성능이 약간 증가하더라구요.

zapzook
2023.08.22 17:40

감사합니다!

Dist
2023.08.27 11:02

혹시 메타데이터를 쌓을 때, encode_info에 넣나요? 아니면 sales_data에 넣나요?? 
sales_data를 슬라이싱하기때문에 판매량 데이터만 거기에 넣고 메타 데이터 활용 파생변수는 encode_info에 넣었는데 성능이 떨어지더라구요. 제가 잘못 접근하고있는걸까요?

EISLab_이희원
2023.08.27 14:59

메타데이터는 encode_info에 넣는 것이 맞습니다.
데이터를 추가했는데 성능이 떨어지는 것은, 모델의 복잡도가 너무 높아 과적합 현상이 발생한 것으로 보이네요

iiioo24
2023.08.27 22:52

2022-01-01_x와 2022-01-01_y를 한 쌍으로 불러와서 메타데이터를 처리하려면 어떤 방법으로 처리해야 되는지 여쭤봐도 될까요??ㅠ

EISLab_이희원
2023.08.27 23:08

iiioo24님이 토크 게시판에 올린 내용을 바탕으로 답변해 드리자면....
전체적으로 이해가 되지 않는 코드 입니다.
for문을 작성하면서 i와 j를 선언했으면서, 왜 for 문 안의 리스트에서 다시 i와 j를 선언했는지...?
또한, for문에 range 밖에 len()을 삽입하였는지...?(원래는 range(len(col_list))로 선언해야 합니다)

Dist
2023.08.27 23:49

답변 감사합니다! 복잡도를 줄이는 쪽으로 접근해보겠습니다. 마지막까지 대회 건승하시길바랍니다.