분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 3.06785 - 자체 모델 구성
안녕하세요, ehfehf팀입니다.
저희는 자체 모델을 구성하여 학습했으며, 외부데이터로는 2022년 8월 전에 공개된 제주시 최고기온의 월별 평년값, 2021, 2022 휴무일을 사용하였습니다.
앙상블을 위해 k-fold cross validation을 사용하였는데 k값을 다양하게 하여 높은 성능 향상을 얻을 수 있었습니다.
감사합니다.
input_dims의 배열 값들은 embedding layer의 input_dim argument에 들어가게 되는데요,
통상적으로 NLP에서 사용하는 embedding layer이기 때문에 라이브러리 설명에 보시면
"input_dim: Integer. Size of the vocabulary, i.e. maximum integer index + 1."
이렇게 나와있습니다. 저는 train dataset의 각 컬럼별 고유값 개수(클래스 개수)를 넣었는데요,
전처리 과정중에 train dataset을 고유값 class index로 변환 후 maximum값을 print한 부분이 있습니다.
거기서 얻은 값들에 +1을 해서 input_dims의 배열 값들을 채웠습니다.
감사합니다.
답변 감사합니다!
이런 정형데이터는 머신러닝 성능이 딥러닝보다 훨 잘나온다는 인식이 개인적으로 있었지만, 이번 기회에 인식이 깨졌네요.
코드 공유해주셔서 감사합니다.
각각 장단점이 있는 것 같습니다. 잘 읽어주셔서 감사합니다. ㅎㅎ
많이 배웠습니다 축하드립니다 ^^
잘 읽어주셔서 감사합니다 ^^
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
리더보드 1등 축하드립니다!
궁금한점이 생겨 질문드립니다.
known_data_model 함수에
input_dims 배열의 값들은 embedding size를 뜻하는것이 맞나요??
맞다면 어떻게 저 값들을 특정지었는지 궁금합니다!