AI프렌즈 시즌 공공 데이터 활용 온도 추정 AI 경진대회

알고리즘 | 정형 | 회귀 | 기상 | MSE

  • moneyIcon Prize : 총 250만원
  • 1,608명 마감

 

[EDA 1] Y00~Y18 사이의 관계 파악하기

2020.03.04 22:01 6,382 Views language

간단하게 Y00~Y18에 대해 분석한 첫 번째 EDA 공유합니다. (반응이 좋으면 더 올려보도록 하겠습니다 ㅎㅎ)

다른 의견이나 궁금증 있으시다면 편하게 댓글 부탁드립니다 :)

감사합니다.

Code
로그인이 필요합니다
0 / 1000
9596
2020.03.04 22:13

안녕하세요~ 전체 코드 잘 봤습니다. 특히 시각화 부분을 잘 하셨더라고요. 감사합니다.
질문이 있습니다. 제가 분석 경험이 적어서 그러는데
현재 Y18이 not_null인 데이터가 432행이고 이 때 Y00~Y17 열은 모두 null인 상태입니다.
그런데 Y00~Y17 열과 Y18열 개수를 concat해서 서로 다른 행이지만 바로 옆으로 매핑시키셨고
이를 통해 히트맵을 그리셨는데
결론적으로, Y00~Y17과 Y18은 다른 시간대인데 저렇게 비교하는게 유의한 판단이 가능한지 알고 싶습니다!
감사합니다.

InCastle
2020.03.04 22:30

코드상에서 그렇게한 이유를 적지 않았는데, 좋은 질문 감사합니다. 
해당 부분에 대해 보충 설명 드리겠습니다. 

InCastle
2020.03.04 22:30

1. 우선 Y18과 Y00~Y17은 한쪽이 null이면 다른 한쪽은 not null이기 때문에 같은 시간에서 비교가 불가능합니다. 

InCastle
2020.03.04 22:31

2. 따라서 최대한 비슷한 시간대에서 비교를 하기 위해 데이터를 재구성했습니다. (check_target)
- 현재 데이터는 시간 순서대로 구성됐습니다.
- Y18이 not null인 데이터는 총 432개입니다.(id : 4320~4751)  => y18
- Y00~Y17이 not null이면서, 위의  시간대에 가장 근접한 (id 3888 ~ 4329, 총 432개)를 가져옵니다 => no_y18
- 둘을 concat => check_target

InCastle
2020.03.04 22:34

3. 최대한 가까운 시간대로 데이터를 구성해서 데이터의 한계를 보완했다고 생각하고, Y03과 Y04는 확연히 (Y15, Y16과 비교했을 때도) 다른 패턴이어서 위와 같은 결론을 내렸습니다. 

InCastle
2020.03.04 22:31

글자수 제한 때문에 댓글 나눠서 남깁니다 :)

9596
2020.03.04 22:36

아~~ 친절한 설명 감사합니다!

호구너
2020.03.04 23:01

좋은 접근 감사합니다

InCastle
2020.03.05 00:25

감사합니다~

Universe
2020.03.05 00:17

좋은 정보 감사합니다!

InCastle
2020.03.05 00:25

좋게 봐주셔서 감사합니다 :)

당쇠
2020.03.05 00:59

울긋불긋 계열 히트맵 시각화 좋습니다.^^

InCastle
2020.03.05 14:06

ㅎㅎ 감사합니다~

조기정
2020.03.06 17:42

파이썬 배우고 있는데 감사합니다 ! 더올려주시면 공부에 도움이 될거같아요!

InCastle
2020.03.06 20:14

노력하겠습니다~

Codemonkey
2020.03.06 19:07

좋은 EDA 올려주셔서 감사합니다. 
69번째 라인에서 no_y18 = train[(train['Y18'].isnull()) > 3887)] 에서  isnull()) 을 isnull()로 고쳐야 옳게 코드가 작동하는것 같습니다.

InCastle
2020.03.06 20:12

지적 감사합니다. 확인해보니 해당 부분 코드는 
no_y18 = train[(train['Y18'].isnull()) & (train['id'] > 3887)][no_y18_target].reset_index(drop = True)
가 맞습니다 :)

Codemonkey
2020.03.08 22:33

train[~train['Y18'].isnull()] = train[train['Y18'].notnull()] 와 같다고 보시나요?

김핑이
2020.03.07 18:31

삭제된 댓글입니다

김핑이
2020.03.07 18:32

댓글 하나 달고 싶었는데, 글자수 제한이 있어서 충분히 못적게 되었습니다. 그래서 삭제한 댓글이니 신경쓰지 않으셔도 됩니다.

김핑이
2020.03.07 18:31

삭제된 댓글입니다

곱창전골저아
2020.03.09 16:35

결측치를 어떻게 처리해야하나 고민하고 있었는데... 좋은 아이디어 감사드립니다.

kernelist
2020.03.10 13:26

아 가장 근접한 시간으로 연관성을 분석한 것이군요. 잘 보았습니다!! 

yubi6304
2020.05.24 14:35

삭제된 댓글입니다

이전 글
LGBM에 custom metric 적용하는 코드
Competition - AI프렌즈 시즌 공공 데이터 활용 온도 추정 AI 경진대회
Likes 20
Views 10,217
Comments 5
5년 전
현재 글
[EDA 1] Y00~Y18 사이의 관계 파악하기
Competition - AI프렌즈 시즌 공공 데이터 활용 온도 추정 AI 경진대회
Likes 32
Views 6,382
Comments 21
5년 전
다음 글
다음 글이 존재하지 않습니다.