분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[영화 관객수] 스테이지5 스텝 2 질문입니다.
원본 데이터를 복사해서 train, test, submission 데이터셋을 생성 했는데 이 부분이 이해가 잘 가지 않습니다.
train = raw_data_train.copy() test = raw_data_test.copy() submission = raw_data_submission.copy()
설명에는 "원본 데이터를 보존하면서 독립적으로 작업하기 위함이다" 라고 되어있는데
무슨 의미인지 잘 모르겠어요.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 알지비님,
데이터 분석을 진행하면서 데이터를 수정하거나 변형하는 일은 자주 발생합니다.
이 때문에 원본 데이터를 안전하게 보관하는 것은 중요합니다.
원본 데이터의 복사본을 사용해 train, test, submission 데이터셋을 생성하는 이유는,
각각의 데이터셋에서 발생할 수 있는 변경사항이 원본 데이터에 영향을 주지 않도록 하기 위해서입니다.
예를 들어, 데이터에 결측치 제거나 이상치 처리와 같은 수정을 가했다가 이후에 원래의 데이터 상태로 돌아가야 할 필요가 생길 때 원본 데이터가 있다면, 쉽게 원래 상태로 복구할 수 있습니다.
만약 '영화 관객수 스테이지5 스텝 4'에서 결측치를 제거하는 과정에서 실수가 발생했다면 원본 데이터를 이용해 쉽게 이전 상태로 되돌릴 수 있습니다.
반면, 원본 데이터를 따로 보존하지 않으면, 수정 이전 상태로 돌리기 위해 train 데이터셋을 다시 불러오는 등 번거롭고 시간이 많이 소요되는 과정을 거쳐야 할 수 있습니다.
결론적으로, 이렇게 각 데이터셋을 독립적으로 처리하면서 원본 데이터를 보존함으로써,
데이터 수정 과정에서 발생할 수 있는 실수나 문제를 효과적으로 관리할 수 있습니다.