분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
간단한 Text Preprocessing + RidgeClassifier
데이터 전처리 + riverallzero님이 올려주신 다운샘플링 기법을 활용한 코드입니다.
(https://dacon.io/competitions/official/236112/codeshare/8447?page=1&dtype=recent)
Text 토큰화로 차원이 매우 높으니, Tree계열 모델은 지양하는 것을 추천 드립니다.
brainAI_이희원님이 언급한 것 처럼(https://dacon.io/competitions/official/236112/talkboard/408426?page=1&dtype=recent)
LB스코어는 잘 나올 수 있지만 Private에서 점수 변동이 심할 수도 있으므로, 2가지 전략으로 제출하시면 좋을 것 같습니다.
안녕하세요. 지난 대회서부터 사랑개님 코드보며 공부 많이하는 초보 분석가입니다. 다른 accuracy가 높은 모델을 사용하지 않고 Ridge clf 로 predict를 한 이유가 무엇인가요?
AdaBoost와 KNN 둘 다 고차원에서 훈련이 제대로 되지않아서 차순위의 모델을 사용했습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
잘보고 갑니다