분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[자료] 이전대회 자료 공유드립니다.
안녕하세요, 프리랜서 개발자 박준호입니다.
논문작성과 모델링에 참고할 수 있는 지난대회 자료를 공유드립니다.
1. 지난대회 대상수상자 논문자료:
https://www.arxiv.org/abs/2502.17469
2. 지난대회 수상자의 논문리뷰 블로그 글:
https://sjkoding.tistory.com/95
3. 지난대회 토론자료:
https://aifactory.space/task/2790/discussion
저는 주로 주말에 코딩하고 평일에는 파라메터 만 변경하여 업데이트 하는 편인데요. 최근에 점수가 오르지 않아서 멘탈이 흔들리고 있습니다.ㅜㅜ 데이터가 적어서 그런가 오버피팅이 자꾸 생기네요. 학습성적은 좋았는디...
힘내서 모두 함께 완주했으면 좋겠습니다.^^
네 감사합니다.^^
감사합니다! 공유해주신 코드 공유 통해서 점수 많이 향상시켰습니다!
데이터가 불균형한 것 같아서, 데이터 불균형 처리 및 SMOTE로 데이터 증강을 진행하긴 했습니다.
저 같은 경우는 LGBM으로 진행하는데 어떤 모델 사용하시는지 알 수 있을까요?
데이터가 적어서 딥러닝은 힘들지 않을까 생각합니다!
안녕하세요, 현재는 from catboost import CatBoostClassifier 사용하고 있니다. NaN값에 대한 적절한 보간값을 정하는것이 쉽지않아서 NaN을 허용하는 모델 위주로 진행하고 있습니다.^^
저는 트리모델인 lgbm으로 진행해서 nan값은전부 -1로 처리해서 진행하고 있긴했습니다. catboost는 범주형 데이터에서 효과가 있을 것 같은데, usageApp(성경일독, 카카오톡 ...)부분에서 catboost를 적용하면 정말 좋을 것 같네요!
s1을 예측하는 부분에서 f1 score가 크게 나오지 않는데, s1은 말씀 주신 catboost로 진행해봐야겠습니다! 좋은 고견 감사합니다.
그리고 optuna로 오버피팅이 되지 않게 적당한 parameter을 통해서 하이퍼파라미터 튜닝을 진행해도 정확도가 약 3~4%정도 상승되는 것 같습니다! (제 데이터가 이상해서 그런걸 수도 있을 것 같지만...)
좋은 의견 감사합니다:)
넵, 좋은 아이디어 공유에 감사드립니다. 저도 적용해보겠습니다.^^
그리고 저는 NaN 때문에 SMOTE 대신 from imblearn.over_sampling import RandomOverSampler 사용했습니다.
좋은 데이터 증강 기법 말씀해주셔서 정말 감사합니다. 대화를 잠시 나누었지만, 정말 많이 배운 것 같습니다.
저도 더이상 성능이 오르지 않아서 EDA를 더 열심히 해보려고했는데, 말씀해주신 방법을 적용해보겠습니다!
감사합니다:)
넵, 저도 감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사합니다:)