분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
[EDA 1] Y00~Y18 사이의 관계 파악하기
간단하게 Y00~Y18에 대해 분석한 첫 번째 EDA 공유합니다. (반응이 좋으면 더 올려보도록 하겠습니다 ㅎㅎ)
다른 의견이나 궁금증 있으시다면 편하게 댓글 부탁드립니다 :)
감사합니다.
코드상에서 그렇게한 이유를 적지 않았는데, 좋은 질문 감사합니다.
해당 부분에 대해 보충 설명 드리겠습니다.
1. 우선 Y18과 Y00~Y17은 한쪽이 null이면 다른 한쪽은 not null이기 때문에 같은 시간에서 비교가 불가능합니다.
2. 따라서 최대한 비슷한 시간대에서 비교를 하기 위해 데이터를 재구성했습니다. (check_target)
- 현재 데이터는 시간 순서대로 구성됐습니다.
- Y18이 not null인 데이터는 총 432개입니다.(id : 4320~4751) => y18
- Y00~Y17이 not null이면서, 위의 시간대에 가장 근접한 (id 3888 ~ 4329, 총 432개)를 가져옵니다 => no_y18
- 둘을 concat => check_target
3. 최대한 가까운 시간대로 데이터를 구성해서 데이터의 한계를 보완했다고 생각하고, Y03과 Y04는 확연히 (Y15, Y16과 비교했을 때도) 다른 패턴이어서 위와 같은 결론을 내렸습니다.
글자수 제한 때문에 댓글 나눠서 남깁니다 :)
아~~ 친절한 설명 감사합니다!
좋은 접근 감사합니다
감사합니다~
좋은 정보 감사합니다!
좋게 봐주셔서 감사합니다 :)
울긋불긋 계열 히트맵 시각화 좋습니다.^^
ㅎㅎ 감사합니다~
파이썬 배우고 있는데 감사합니다 ! 더올려주시면 공부에 도움이 될거같아요!
노력하겠습니다~
좋은 EDA 올려주셔서 감사합니다.
69번째 라인에서 no_y18 = train[(train['Y18'].isnull()) > 3887)] 에서 isnull()) 을 isnull()로 고쳐야 옳게 코드가 작동하는것 같습니다.
지적 감사합니다. 확인해보니 해당 부분 코드는
no_y18 = train[(train['Y18'].isnull()) & (train['id'] > 3887)][no_y18_target].reset_index(drop = True)
가 맞습니다 :)
train[~train['Y18'].isnull()] = train[train['Y18'].notnull()] 와 같다고 보시나요?
삭제된 댓글입니다
댓글 하나 달고 싶었는데, 글자수 제한이 있어서 충분히 못적게 되었습니다. 그래서 삭제한 댓글이니 신경쓰지 않으셔도 됩니다.
삭제된 댓글입니다
결측치를 어떻게 처리해야하나 고민하고 있었는데... 좋은 아이디어 감사드립니다.
아 가장 근접한 시간으로 연관성을 분석한 것이군요. 잘 보았습니다!!
삭제된 댓글입니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요~ 전체 코드 잘 봤습니다. 특히 시각화 부분을 잘 하셨더라고요. 감사합니다.
질문이 있습니다. 제가 분석 경험이 적어서 그러는데
현재 Y18이 not_null인 데이터가 432행이고 이 때 Y00~Y17 열은 모두 null인 상태입니다.
그런데 Y00~Y17 열과 Y18열 개수를 concat해서 서로 다른 행이지만 바로 옆으로 매핑시키셨고
이를 통해 히트맵을 그리셨는데
결론적으로, Y00~Y17과 Y18은 다른 시간대인데 저렇게 비교하는게 유의한 판단이 가능한지 알고 싶습니다!
감사합니다.