분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Private 3.06785 - 자체 모델 구성
공동작성자
안녕하세요, ehfehf팀입니다.
저희는 자체 모델을 구성하여 학습했으며, 외부데이터로는 2022년 8월 전에 공개된 제주시 최고기온의 월별 평년값, 2021, 2022 휴무일을 사용하였습니다.
앙상블을 위해 k-fold cross validation을 사용하였는데 k값을 다양하게 하여 높은 성능 향상을 얻을 수 있었습니다.
감사합니다.
input_dims의 배열 값들은 embedding layer의 input_dim argument에 들어가게 되는데요,
통상적으로 NLP에서 사용하는 embedding layer이기 때문에 라이브러리 설명에 보시면
"input_dim: Integer. Size of the vocabulary, i.e. maximum integer index + 1."
이렇게 나와있습니다. 저는 train dataset의 각 컬럼별 고유값 개수(클래스 개수)를 넣었는데요,
전처리 과정중에 train dataset을 고유값 class index로 변환 후 maximum값을 print한 부분이 있습니다.
거기서 얻은 값들에 +1을 해서 input_dims의 배열 값들을 채웠습니다.
감사합니다.
답변 감사합니다!
이런 정형데이터는 머신러닝 성능이 딥러닝보다 훨 잘나온다는 인식이 개인적으로 있었지만, 이번 기회에 인식이 깨졌네요.
코드 공유해주셔서 감사합니다.
각각 장단점이 있는 것 같습니다. 잘 읽어주셔서 감사합니다. ㅎㅎ
많이 배웠습니다 축하드립니다 ^^
잘 읽어주셔서 감사합니다 ^^
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
리더보드 1등 축하드립니다!
궁금한점이 생겨 질문드립니다.
known_data_model 함수에
input_dims 배열의 값들은 embedding size를 뜻하는것이 맞나요??
맞다면 어떻게 저 값들을 특정지었는지 궁금합니다!