분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
외부 데이터 이용 시
안녕하세요~
외부 데이터를 사용하고자 하는데,
외부 데이터 데이터 전처리 과정에서 Test 데이터셋과 중복되는 내용을 제거하기 위해
Test 데이터셋을 사용하는 것은 괜찮을까요??
모델 학습에는 사용하지 않았습니다.
tmp_train = pd.concat([train, train2]) # train2는 외부데이터입니다.
pd.merge(tmp_train, test, left_on = 'reviews', right_on = 'reviews', how = 'inner') # test 데이터와 조인하여 중복되는 내용 있는지 확인
# review열의 중복 제거
# test와 concat 후 중복되는 내용 전체 제거 -> train 데이터에는 test 데이터가 삭제되어있는 상태
tmp_train = pd.concat([tmp_train, test])
tmp_train = tmp_train.drop_duplicates(subset = ['reviews'], keep=False)
train = tmp_train.reset_index().drop('index', axis=1)
감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요, 우쩌르님! 데이콘입니다.
외부데이터 이용을 위해 test셋의 분포를 이용하지 않고 test셋을 전처리하는 경우는, Data Leakage에 해당하지 않습니다.
test셋의 분포를 이용하여 test셋을 전처리하는 경우, Data Leakage에 해당합니다.
감사합니다.