분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
쉽게 따라할 수 있는 항공 만족도 예측 경진대회 EDA(RF, Public: 0.921)
안녕하세요. 이번에도 대회 관련 EDA 코드를 공유합니다!
시각화에 조금 더 힘을 쓴 것 같구요. 마찬가지로 통계학과 스러움을 유지하려고 노력한 코드입니다.
쉽게 따라할 수 있는 코드들로 최대한 작성을 했는데, 이해가 안되시면 댓글 달아주세요. 꼭 답변 드리겠습니다.
도움이 되셨다면 추천 부탁드릴께요! 감사합니다.
제 깃허브 블로그에도 업로드 했으니 많은 방문 부탁드려요.
(https://ksy1526.github.io/myblog/)
안녕하세요. 분데데분님. 제 코드를 하나하나 다 읽어주시는 분이 계셔서 정말 기쁩니다.
저도 분데데분님 파이케럿 설명하신 코드 보고 큰 도움이 됬는데 이 기회에 감사하다고 말씀드리고 싶네요.
질문하신부분은 정확히 어느 수치일때 로그변환을 한다고 말씀드리기는 조금 힘들것 같습니다.
다만 전 다음 두 가지 기준으로 판단합니다.
- 월 소득과 같이 변수 자체를 생각했을때 최댓값을 특정하지 못할 경우
- 시각적으로 오른쪽 꼬리가 분명하게 긴 경우
충분한 답변이 되었을지는 모르겠네요. 감사합니다!
월 소득과 같은 예를 들어주셔서 이해가 쉽게 되었네요..! 감사합니다 :)
이산형 변수에 대해 0에 대한 데이터를 생각치도 못하였는데, 좋은 정보 얻고갑니다! 많은 도움 되었습니다. 감사합니다.
제 코드가 많은 도움이 되었다니 기쁘네요. 감사합니다.
안녕하세요, ssu님. 올려주신 코드들 잘 보았습니다.
코드를 보고 몇 가지 궁금한 점이 생겼습니다.
1. inflight entertainment 와 같이 2,3 항목 변환 필요한 변수들을 합친 이유가 1인 target 값을 가리는데 유의미하지 않고, 데이터 간 분포를 줄일 수 있어서 인가요?
2. Flight Distance 변수 시각화 부분에서 표준오차보다 두 변수 간 차이가 더 커서 유의미한 변수라고 하셨는데 이유를 설명해주실 수 있나요?
우선 제 코드를 좋게 봐주셔서 감사합니다.
1. 제 의도를 정확히 이해하신 것 같습니다. 변수마다 차이가 조금 있는데, 특정 변수에 경우 3 항목이 2 항목보다 타겟 0값 비율이 높은 비 상식적인 현상이 발견됩니다. 이런경우 있는 그대로 받아들이기 보다 2,3 두 항목은 차이가 없이 똑같다. 데이터가 조금 튄것이다. 판단하고 병합했습니다.
말씀하신 데이터 간 분포를 줄이기, 항목 줄이기 의도 또한 있습니다.
2. 통계적 검증에서 두 모집단간 평균 비교를 할때 Z 값을 이용하는데 Z 값은 대략적으로 평균의 차이/ 표준오차 를 따릅니다. (제가 한 방식이 정확한 수식은 아닙니다. 직관적으로 설명드리려고 한 것이에요)
Z 값이 2 이상이라면 두 집단간 평균차이가 유의미하기에 본문 내용을 그렇게 쓴 것입니다.
잘 읽어주셔서 감사하고, 읽는 사람 입장에서 설명이 다소 부족한 부분을 잘 질문해주셔서 감사합니다!
항상 ssu님 글 잘보고 있습니다. 이번에도 좋은 글 잘 읽고 갑니다.
항상 좋게 봐주신다니 너무 감사합니다. 앞으로도 좋은 글 쓰겠습니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
코드 공유 감사합니다. 'ssu통계학과'님의 코드는 하나하나 다 읽으면서 보고있습니다. :)
분포가 치우친 경우, 로그변환을 활용하는데 'ssu통계학과'님은 어느정도 치우쳤을 때 변환을 하시나요?
시각적으로 보았을 때, 조금이라도 치우친 것 같으면 취하시는지 여쭈어봅니다.