분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2024 생명연구자원 AI활용 경진대회 : 인공지능 활용 부문
딥러닝이 아닌 머신러닝기법으로 점수를 내신분이있나요?
column 갯수도 너무많고 mutant gene 갯수도 각각인데
머신러닝으로 접근해서 성과를 내고있는분이 있을까 궁금하네요
0.3점 정도라 아직 성과가 있다고 하긴 힘들겠지만
저도 컬럼이 너무 많아서 XGB나 로지스틱회귀 모델은 시간이 조금 걸리길래, 차원축소를 조금 했습니다.
기법은 다양할텐데 잘 몰라서, 일단 randomforest의 feature_importances 누적값 0.4로 돌렸습니다. 이러면 XGB도 나름 빨리 돌더라고요.
그렇게 컬럼 수 줄인 다음에 XGB, randomforest, 로지스틱회귀, lightgbm 4개 모델 옵튜나로 하이퍼파라미터 최적화 해봤는데
XGB가 0.3점 정도 나왔고 제출 시엔, 0.29점 정도 나오네요.
이후에, 위 모델들로 적당히 stacking이랑 voting으로 앙상블 해봤는데, stacking이 조금 더 결과가 좋아서(0.33점 정도) 제출 해봤습니다.
그러니까 0.308 정도 나오네요.
클래스 불균형이 심한데, 도메인 지식이 없어서 어떻게 보완을 해야 할 지 고민 중이네요.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
일단 딥러닝도 머신러닝 입니다. 부족한 데이터를 보면 추가적인 알고리즘 사용이 필요할 것 같아요