[영화 관객수] 스테이지5 스텝 2 질문입니다.

2024.04.23 15:52 614 조회

원본 데이터를 복사해서 train, test, submission 데이터셋을 생성 했는데 이 부분이 이해가 잘 가지 않습니다.

train = raw_data_train.copy()
test = raw_data_test.copy()
submission = raw_data_submission.copy()


설명에는 "원본 데이터를 보존하면서 독립적으로 작업하기 위함이다" 라고 되어있는데

무슨 의미인지 잘 모르겠어요.




로그인이 필요합니다
0 / 1000
DACON.JE
2024.04.23 16:31

안녕하세요 알지비님,
데이터 분석을 진행하면서 데이터를 수정하거나 변형하는 일은 자주 발생합니다. 
이 때문에 원본 데이터를 안전하게 보관하는 것은 중요합니다. 
원본 데이터의 복사본을 사용해 train, test, submission 데이터셋을 생성하는 이유는, 
각각의 데이터셋에서 발생할 수 있는 변경사항이 원본 데이터에 영향을 주지 않도록 하기 위해서입니다.

예를 들어, 데이터에 결측치 제거나 이상치 처리와 같은 수정을 가했다가 이후에 원래의 데이터 상태로 돌아가야 할 필요가 생길 때 원본 데이터가 있다면, 쉽게 원래 상태로 복구할 수 있습니다. 
만약 '영화 관객수 스테이지5 스텝 4'에서 결측치를 제거하는 과정에서 실수가 발생했다면 원본 데이터를 이용해 쉽게 이전 상태로 되돌릴 수 있습니다. 
반면, 원본 데이터를 따로 보존하지 않으면, 수정 이전 상태로 돌리기 위해 train 데이터셋을 다시 불러오는 등 번거롭고 시간이 많이 소요되는 과정을 거쳐야 할 수 있습니다.

결론적으로, 이렇게 각 데이터셋을 독립적으로 처리하면서 원본 데이터를 보존함으로써, 
데이터 수정 과정에서 발생할 수 있는 실수나 문제를 효과적으로 관리할 수 있습니다.