월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회

데이터 중복 이슈에 대한 데이터 분석 초보의 고찰

2021.04.15 20:19 5,514 조회 language

동일인물에 대한 데이터 중복 이슈에 대해 저의 고찰을 작성해 보았습니다.
감사합니다.

코드
로그인이 필요합니다
0 / 1000
바른의패기
2021.04.16 14:29

멋져용 ㅎㅎㅎ

JongSoo Hwang
2021.04.16 18:43

앜ㅋㅋ 감사합니다 :-)

논논노눈누난나
2021.04.16 19:21

현재 학습에 활용하는 데이터를 수집한 표본의 크기나 성질을 좀 알면 저런 5개의 값으로 동일인물임을 추측하는데에 거부감이 없겠는데, 표본 크기도 모르겠고 수집한 기간이나 지역도 모르겠어서 쉽지가 않네요. 시계열 데이터의 특징이 있다고 감안하고 처리해보는게 좋은 생각일 수도 있겠습니다.

JongSoo Hwang
2021.06.10 16:05

답글이 늦어 죄송합니다 ㅎ.. 좋은 말씀 남겨주셔서 감사합니다!

dybala
2021.04.17 03:04

좋은 접근법인것 같습니다. 저도  EDA를 하면서 begin_month에 대한 변수를 어떻게 처리하느냐가 결과를 좌우할 과제라 느꼈습니다. 하지만 역시 데이터를 두개로 나누어 모델을 적용한다는 것은 학습에 너무 큰 손실이라고 생각합니다.  오히려 begin_month 변수 처리에 집중해봅시다. 좋은 시도 통해 좋은 결과 있길 바라겠습니다. 화이팅합시다!~!

(학습모델 2개 -> 추정해야할 모수 약 2배  -> BAD result, 하지만 완전히 다른 성격의 데이터를 분할해주는 것이라면 맞는 방법이겠죠)

JongSoo Hwang
2021.06.10 16:06

답글이 늦어 죄송합니다 ㅎ.. 좋은 의견 감사했습니다 ! :-)

korever
2021.04.21 19:41

중복데이터 검증 정말로 고마왔습니다.

JongSoo Hwang
2021.06.10 16:07

답글이 늦어졌습니다 ㅎㅎ .. 저도 댓글 남겨주셔서 감사했습니다 ! 

블메소리
2021.05.13 13:56

좋은 EDA 감사드립니다.

JongSoo Hwang
2021.06.10 16:07

힘나는 댓글 감사합니다 ~!

이전 글
참여
대회 - 전력사용량 예측 AI 경진대회
좋아요 1
조회 2
댓글 1
3년 전
현재 글
데이터 중복 이슈에 대한 데이터 분석 초보의 고찰
대회 - 월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회
좋아요 27
조회 5,514
댓글 10
3년 전
다음 글
식수예측 테스트
대회 - 구내식당 식수 인원 예측 AI 경진대회
좋아요 0
조회 1
댓글 0
3년 전