분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Baseline model 공유 (RandomForest - 0.4760008696)
- 빅분기 실기시험 연습용 코드 작성
- 학습이 가능한 최소한의 전처리 실시
- 가장 사용하기 무난한 랜덤포레스트 모델 사용
- 시각화, 하이퍼파라미터 튜닝x
질문 주신 의도가 2가지 정도로 해석되는데
제가 해석한 대로 답변드려보겠습니다.
Q1. train 데이터에만 존재하는 칼럼으로 test 데이터 예측에 사용할 수 없는가?
A. train에만 존재하는 컬럼으로 test 데이터의 예측이 불가합니다.
- 제가 baseline 모델을 작성한 환경(랜덤 포레스트 회귀 모델 + 원핫 인코딩)에서는
train 데이터를 이용하여 학습(fit) 후 test 데이터를 이용하여 예측(predict) 시도 시, 에러가 발생합니다.
- (사용이 가능하더라도) train에만 있는 컬럼으로 학습한 내용이 test 데이터에는 해당 컬럼들이 존재하지 않기 때문에,
test 데이터에 대한 평가 지표가 굉장히 안 좋게 나올 것으로 예상됩니다.
A. 일부 컬럼은 직접 학습에 사용하면 안된다고 생각합니다.
- 예를 들어 target인 'ECLO' 컬럼이 train 데이터의 '사망자 수, 중상자 수, 경상 자수, 부상자 수'를 이용하여 지표를 생성한 것이기 때문에,
해당 컬럼 4가지 만으로도 완벽하게 target 데이터를 예측할 수 있게 됩니다. (오픈북)
Q2. train 데이터에만 존재하는 컬럼들은 쓸모가 없는가?
A. 주어진 컬럼들을 이용하여 자신만의 인사이트를 도출하고, 학습에 사용할 컬럼의 전처리를 어떻게 진행할지 등에 활용 가능하리라 생각합니다.
- 어느 행정구역에서 법규 위반이 자주 일어나는지?
- 어떤 시간대에 사망자가 많은지, 경상자가 많은지?
- 요일에 따른 교통사고 특징은 어떻게 다른지? 등
출제자의 의도와 규칙 안에서 본인만의 질문과 답변을 찾아가면서
해당 컬럼들을 어떻게 활용할지는 작성자의 자유라고 생각합니다.
답변 감사합니다!
제가 드리고 싶은 질문은 Q2. train 데이터에만 존재하는 컬럼들은 쓸모가 없는가?
보통 대회에서 train 데이터와 test 데이터는 목표 변수 빼고는 같은 열을 주는 걸로 알고 있어서요
이 대회에서는 train과 test 열이 달라서
train 데이터에서 새로운 피쳐를 만들어도 test 데이터에서 쓸 수가 있는건가요?
1.
단순히 'train에만 있는 컬럼'을 이용해서 '새로운 컬럼'을 생성 -> 학습 및 예측 이 가능한지 질문하시는 거라면,
학습은 가능하지만 예측은 불가능합니다.
- 'train에만 있는 컬럼'을 이용해서 똑같이 test 데이터에서도 '새로운 컬럼'을 생성(전처리) 해야 하는데,
test 데이터에 'train에만 있는 컬럼'이 없기 때문에 똑같이 전처리가 불가능합니다.
- 예측은, train과 동일한 컬럼을 가지는 test 데이터로 예측을 진행해야 하는데,
train과 test의 컬럼 구성이 다르기 때문에 예측이 안됩니다.
제공된 데이터가 아닌 다른 출처에서 train과 동일한 동일한 컬럼의 정보들을 얻으실 수 있다면,
test데이터에도 train에 적용한 똑같은 컬럼 생성 및 예측까지 가능하겠지만,
그럴 거면, 이미 아시는 것처럼 다른 대회와 같이 애초에 trian과 test가 동일한 컬럼을 가지는 데이터셋을 제공해 줬으리라 생각합니다.
다른 방법이 존재할 수 있겠으나, 제가 아는 선에서는 불가능합니다.
2.
저는 train에만 있는 데이터들을 이용해서 EDA 및 인사이트 도출 진행하고
이를 기반으로 범주형 데이터를 인코딩할 때 참고할 예정입니다.
3.
혹시 특정 '새로운 피쳐'를 만들어도 되는지 궁금하신 거라면,
질문자께서 어떤 피쳐를 만드시려고 하는지 제가 모르고,
제가 주최 측이 아니기 때문에 답변을 드리기가 애매합니다.
특정 컬럼에 대한 질문을 하고 싶으시다면,
주최 측에 문의해 보시는 게 정확한 답변을 얻으실 수 있을 것 같습니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
글 잘 읽었습니다
질문이 있는데요 그러면 test 데이터에는 없는 train 데이터 열들은 앞으로 사용 할 수가(혹은 필요가) 없는걸까요??