분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이터 중복 이슈에 대한 데이터 분석 초보의 고찰
동일인물에 대한 데이터 중복 이슈에 대해 저의 고찰을 작성해 보았습니다.
감사합니다.
앜ㅋㅋ 감사합니다 :-)
현재 학습에 활용하는 데이터를 수집한 표본의 크기나 성질을 좀 알면 저런 5개의 값으로 동일인물임을 추측하는데에 거부감이 없겠는데, 표본 크기도 모르겠고 수집한 기간이나 지역도 모르겠어서 쉽지가 않네요. 시계열 데이터의 특징이 있다고 감안하고 처리해보는게 좋은 생각일 수도 있겠습니다.
답글이 늦어 죄송합니다 ㅎ.. 좋은 말씀 남겨주셔서 감사합니다!
좋은 접근법인것 같습니다. 저도 EDA를 하면서 begin_month에 대한 변수를 어떻게 처리하느냐가 결과를 좌우할 과제라 느꼈습니다. 하지만 역시 데이터를 두개로 나누어 모델을 적용한다는 것은 학습에 너무 큰 손실이라고 생각합니다. 오히려 begin_month 변수 처리에 집중해봅시다. 좋은 시도 통해 좋은 결과 있길 바라겠습니다. 화이팅합시다!~!
(학습모델 2개 -> 추정해야할 모수 약 2배 -> BAD result, 하지만 완전히 다른 성격의 데이터를 분할해주는 것이라면 맞는 방법이겠죠)
답글이 늦어 죄송합니다 ㅎ.. 좋은 의견 감사했습니다 ! :-)
중복데이터 검증 정말로 고마왔습니다.
답글이 늦어졌습니다 ㅎㅎ .. 저도 댓글 남겨주셔서 감사했습니다 !
좋은 EDA 감사드립니다.
힘나는 댓글 감사합니다 ~!
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
멋져용 ㅎㅎㅎ