분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
간단한 Text Preprocessing + RidgeClassifier
데이터 전처리 + riverallzero님이 올려주신 다운샘플링 기법을 활용한 코드입니다.
(https://dacon.io/competitions/official/236112/codeshare/8447?page=1&dtype=recent)
Text 토큰화로 차원이 매우 높으니, Tree계열 모델은 지양하는 것을 추천 드립니다.
brainAI_이희원님이 언급한 것 처럼(https://dacon.io/competitions/official/236112/talkboard/408426?page=1&dtype=recent)
LB스코어는 잘 나올 수 있지만 Private에서 점수 변동이 심할 수도 있으므로, 2가지 전략으로 제출하시면 좋을 것 같습니다.
안녕하세요. 지난 대회서부터 사랑개님 코드보며 공부 많이하는 초보 분석가입니다. 다른 accuracy가 높은 모델을 사용하지 않고 Ridge clf 로 predict를 한 이유가 무엇인가요?
AdaBoost와 KNN 둘 다 고차원에서 훈련이 제대로 되지않아서 차순위의 모델을 사용했습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
잘보고 갑니다