분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Simple EDA Starter - 클릭률 관련 분석
전체 데이터 20% 샘플의 간단한 EDA 노트북 입니다.
모두에게 최선의 결과가 있기를 바랍니다. 화이팅!
정성이 대단합니다. 잘 보고 갑니다!!
와우
잘 보고 갑니다!
와... 정말 감사합니다.
많은 정보 얻고 갑니다.
더불어 해주신 EDA를 보면서 생각났던 점들인데 같이 공유해봅니다. 관심 있는 다른 분들도 의견 주시면 감사하겠습니다.
1) 주최측에서 연령대 등을 숫자로 표현하고 의미를 부여하지 않았는데, 시간대, 요일도 이러한 경우로 봤을 때 EDA 내용에서 '월요일' 혹은 '3시' 같이 한정지어서 표현하면 왜곡될 수도 있지 않을까 싶습니다.
2) 상관관계 관련해서 이진 분류의 경우 기존에 쓰는 Pearson's Correlation 방법을 쓰면 왜곡된다고 확인했던 것 같습니다. 해당 방법은 변수들 간에 Linear한 상관관계가 있는지를 확인하는 방법이라고 봤던 것 같은데, 이진 분류의 타겟 컬럼은 Linear하게 증가하지 않기 때문입니다.
저도 잘 모르는데, 많이 배워갑니다.혹시 제가 의견 드린 부분 중에 잘못된 점 있으면 너그럽게 의견 공유 부탁드립니다.
의견에 동의합니다! 적절히 필터링해서 봐주세요😅
다만, 2번 질문에는 point-biserial correlation 케이스를 예시로 드리겠습니다🤔
감사합니다!
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
감사하무니다