항공사 고객 만족도 예측 AI 해커톤

정형 | Accuracy

  • moneyIcon 상금 : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 657명 마감

 

쉽게 따라할 수 있는 항공 만족도 예측 경진대회 EDA(RF, Public: 0.921)

2022.02.09 00:37 1,809 조회 language

안녕하세요. 이번에도 대회 관련 EDA 코드를 공유합니다!
시각화에 조금 더 힘을 쓴 것 같구요. 마찬가지로 통계학과 스러움을 유지하려고 노력한 코드입니다.
쉽게 따라할 수 있는 코드들로 최대한 작성을 했는데, 이해가 안되시면 댓글 달아주세요. 꼭 답변 드리겠습니다.
도움이 되셨다면 추천 부탁드릴께요! 감사합니다.

제 깃허브 블로그에도 업로드 했으니 많은 방문 부탁드려요.
(https://ksy1526.github.io/myblog/)

코드
로그인이 필요합니다
0 / 1000
백남진
2022.02.09 08:42

코드 공유 감사합니다. 'ssu통계학과'님의 코드는 하나하나 다 읽으면서 보고있습니다. :)

분포가 치우친 경우, 로그변환을 활용하는데 'ssu통계학과'님은 어느정도 치우쳤을 때 변환을 하시나요?
시각적으로 보았을 때, 조금이라도 치우친 것 같으면 취하시는지 여쭈어봅니다.

ssu통계학과
2022.02.09 11:13

안녕하세요. 분데데분님. 제 코드를 하나하나 다 읽어주시는 분이 계셔서 정말 기쁩니다.

저도 분데데분님 파이케럿 설명하신 코드 보고 큰 도움이 됬는데 이 기회에 감사하다고 말씀드리고 싶네요.

질문하신부분은 정확히 어느 수치일때 로그변환을 한다고 말씀드리기는 조금 힘들것 같습니다.

다만 전 다음 두 가지 기준으로 판단합니다.
- 월 소득과 같이 변수 자체를 생각했을때 최댓값을 특정하지 못할 경우
- 시각적으로 오른쪽 꼬리가 분명하게 긴 경우

충분한 답변이 되었을지는 모르겠네요. 감사합니다!

백남진
2022.02.09 11:57

월 소득과 같은 예를 들어주셔서 이해가 쉽게 되었네요..! 감사합니다 :)

성지코딩
2022.02.09 13:36

이산형 변수에 대해 0에 대한 데이터를 생각치도 못하였는데, 좋은 정보 얻고갑니다! 많은 도움 되었습니다. 감사합니다.

ssu통계학과
2022.02.09 19:37

제 코드가 많은 도움이 되었다니 기쁘네요. 감사합니다.

dong_ho
2022.02.09 16:02

안녕하세요, ssu님. 올려주신 코드들 잘 보았습니다.

코드를 보고 몇 가지 궁금한 점이 생겼습니다.
1. inflight entertainment 와 같이 2,3 항목 변환 필요한 변수들을 합친 이유가 1인 target 값을 가리는데 유의미하지 않고, 데이터 간 분포를 줄일 수 있어서 인가요?
2. Flight Distance 변수 시각화 부분에서 표준오차보다 두 변수 간 차이가 더 커서 유의미한 변수라고 하셨는데 이유를 설명해주실 수 있나요?

ssu통계학과
2022.02.09 19:46

우선 제 코드를 좋게 봐주셔서 감사합니다.

1. 제 의도를 정확히 이해하신 것 같습니다. 변수마다 차이가 조금 있는데, 특정 변수에 경우 3 항목이 2 항목보다 타겟 0값 비율이 높은 비 상식적인 현상이 발견됩니다. 이런경우 있는 그대로 받아들이기 보다 2,3 두 항목은 차이가 없이 똑같다. 데이터가 조금 튄것이다. 판단하고 병합했습니다.
말씀하신 데이터 간 분포를 줄이기, 항목 줄이기 의도 또한 있습니다.

2. 통계적 검증에서 두 모집단간 평균 비교를 할때 Z 값을 이용하는데 Z 값은 대략적으로 평균의 차이/ 표준오차 를 따릅니다. (제가 한 방식이 정확한 수식은 아닙니다. 직관적으로 설명드리려고 한 것이에요)
Z 값이 2 이상이라면 두 집단간 평균차이가 유의미하기에 본문 내용을 그렇게 쓴 것입니다.

잘 읽어주셔서 감사하고, 읽는 사람 입장에서 설명이 다소 부족한 부분을 잘 질문해주셔서 감사합니다!

chloe★
2022.02.16 18:14

항상 ssu님 글 잘보고 있습니다. 이번에도 좋은 글 잘 읽고 갑니다.

ssu통계학과
2022.02.20 20:42

항상 좋게 봐주신다니 너무 감사합니다. 앞으로도 좋은 글 쓰겠습니다!