분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Feature의 Cycle 특성
안녕하세요.
머신러닝 공부를 시작한지 얼마 되지 않아 부족한 것이 많은 사람입니다.
많이 헤매고 있었지만 데이터의 특이점을 찾았고 이를 바탕으로 괜찮은 스코어가 나와 공유 드리려고 글을 씁니다.
X Feature든 Y Feature든 Histogram이나 상관관계를 찾기는 매우 어려웠습니다.
참고할만한 논문을 읽어보던 중 데이터를 시간순으로 늘어놓는 것을 보고 저도 아래와 같이 인덱스 순으로 그래프를 그려봤습니다.
<예: X_03>

<예: Y_06>
위에서 보다시피 Cycle이 반복되는 특성이 있습니다. 즉, Test/Train 데이터를 무작위로 나눌 경우, Score 차이가 많이 발생할 수 있는 부분입니다.
대회가 얼마남지 않았지만 도움이 되셨으면 합니다.
데이터 분석하면서 사이클이 있다는 생각은 했지만 모델 최적화에 바빠서 CV를 무작위로 하면 안된다는데 생각이 못미쳤네요. 이미 제출은 끝났지만 많은 공부가 되었습니다. 감사합니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
whoa