[기업은행 혁신리그] 쇼핑몰 리뷰 평점 분류 경진대회

알고리즘 | NLP | 분류 | 리뷰 | Accuracy

  • moneyIcon -
  • 65명 마감
마감

 

외부 데이터 이용 시

2022.10.29 12:00 702 조회

안녕하세요~

외부 데이터를 사용하고자 하는데,

외부 데이터 데이터 전처리 과정에서 Test 데이터셋과 중복되는 내용을 제거하기 위해

Test 데이터셋을 사용하는 것은 괜찮을까요??

모델 학습에는 사용하지 않았습니다.



tmp_train = pd.concat([train, train2]) # train2는 외부데이터입니다.

pd.merge(tmp_train, test, left_on = 'reviews', right_on = 'reviews', how = 'inner') # test 데이터와 조인하여 중복되는 내용 있는지 확인


# review열의 중복 제거

# test와 concat 후 중복되는 내용 전체 제거 -> train 데이터에는 test 데이터가 삭제되어있는 상태

tmp_train = pd.concat([tmp_train, test])

tmp_train = tmp_train.drop_duplicates(subset = ['reviews'], keep=False)

train = tmp_train.reset_index().drop('index', axis=1)

로그인이 필요합니다
0 / 1000
DACON.SM
2022.11.02 11:08

안녕하세요, 우쩌르님! 데이콘입니다.

외부데이터 이용을 위해 test셋의 분포를 이용하지 않고 test셋을 전처리하는 경우는, Data Leakage에 해당하지 않습니다.

test셋의 분포를 이용하여 test셋을 전처리하는 경우, Data Leakage에 해당합니다.

감사합니다.

우쩌르
2022.11.02 11:16

감사합니다!