모델 튜닝 챌린지 : 월간 데이콘 파일럿

알고리즘 | 정형 | 하이퍼파라미터 | 모델 튜닝 | 노코딩 | AUC

인증서 + 데이스쿨
510명 마감

연습

대회안내 데이터 코드 공유 토크 리더보드

제출

설명

Dataset Info.

train.csv [파일]
데이터 전처리 과정이 끝난 학습 데이터 (추가 데이터 전처리 과정을 진행하지 않습니다.)
RF 모델 하이퍼파라미터를 제출 시, 해당 데이터로 자동적으로 학습됩니다.
person_id: 유저별 고유 아이디
Sex: 성별
past_login_total: 과거(5월 8일 이전)에 로그인한 총 횟수
past_1_month_login: 과거 1달간 로그인한 총 횟수
past_1_week_login: 과거 1주간 로그인한 총 횟수
sub_size: 과거에 데이콘 대회에서의 총 제출 수
email_type: 가입한 이메일 종류
phone_rat: 폰으로 접속한 비율
apple_rat: 애플 기기로 접속한 비율
login: 로그인 여부

sample_submission.csv [파일] - 제출 양식
RF 모델을 학습시킬 모델 하이퍼파라미터 목록
n_estimators:
기본값: 10
범위: 10 ~ 1000 사이의 양의 정수. 일반적으로 값이 클수록 모델 성능이 좋아지지만, 계산 비용과 시간도 증가합니다.
criterion:
기본값: 'gini'
옵션: 'gini', 'entropy'. 'gini'는 진니 불순도를, 'entropy'는 정보 이득을 기준으로 합니다.
max_depth:
기본값: None
범위: None 또는 양의 정수. None으로 설정하면 노드가 모든 리프가 순수해질 때까지 확장됩니다. 양의 정수를 설정하면 트리의 최대 깊이를 제한합니다.
min_samples_split:
기본값: 2
범위: 2 이상의 정수 또는 0과 1 사이의 실수 (비율을 나타냄, (0, 1] ). 내부 노드를 분할하기 위해 필요한 최소 샘플 수를 지정합니다.
min_samples_leaf:
기본값: 1
범위: 1 이상의 정수 또는 0과 0.5 사이의 실수 (비율을 나타냄, (0, 0.5] ). 리프 노드가 가져야 하는 최소 샘플 수를 지정합니다.
min_weight_fraction_leaf:
기본값: 0.0
범위: 0.0에서 0.5 사이의 실수. 리프 노드에 있어야 하는 샘플의 최소 가중치 비율을 지정합니다.
max_features:
기본값: 'auto'
옵션: 'auto', 'sqrt', 'log2', None 또는 양의 정수/실수. 최적의 분할을 찾기 위해 고려할 특성의 수 또는 비율을 지정합니다. 'auto'는 모든 특성을 사용함을 의미하며, 'sqrt'와 'log2'는 각각 특성의 제곱근과 로그2를 사용합니다. None은 'auto'와 동일하게 모든 특성을 의미합니다.
max_leaf_nodes:
기본값: None
범위: None 또는 양의 정수. 리프 노드의 최대 수를 제한합니다. None은 무제한을 의미합니다.
min_impurity_decrease:
기본값: 0.0
범위: 0.0 이상의 실수. 노드를 분할할 때 감소해야 하는 불순도의 최소량을 지정합니다.
bootstrap:
기본값: True
옵션: True, False. True는 부트스트랩 샘플을 사용하여 개별 트리를 학습시킵니다. False는 전체 데이터셋을 사용하여 각 트리를 학습시킵니다.

모델 튜닝 챌린지 : 월간 데이콘 파일럿

알고리즘 | 정형 | 하이퍼파라미터 | 모델 튜닝 | 노코딩 | AUC

설명

※ 제공드리는 데이터를 엑셀로 열람하는 경우, 데이터가 비정상적으로 보이는 현상이 발생할 수 있으니 반드시 Pandas패키지와 같은 데이터툴을 이용하여 열람부탁드립니다.

상세

AI 해커톤 플랫폼