항공사 고객 만족도 예측 AI 해커톤

정형 | Accuracy

  • moneyIcon 상금 : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 686명 마감

 

첫 참가.. EDA / pycaret만 사용.. private 1위[0.949]

2022.02.20 13:10 3,829 조회 language

안녕하세요... 머신러닝 공부를 시작하면서 '데이콘' 사이트를 알게 되어 첫 베이직 참가해 봤습니다..
첫 참가에 private 1등이라니... 제가 왜 private 1등이 됐는지 아직도 모르겠네요.. 
메일이 와서 코드를 올리기는 하지만.. 저 스스로 부정행위에 해당하는 짓을 했는지 안 했는지조차 모를 정도로 초보입니다..
일단 한번 올려보겠습니다...

이렇게 될 줄 모르고.. 정리 안하고 진행하여 급히 방금  정리를 했습니다.. 중간에 뒤죽박죽 된 부분이 있을 수 있으니 양해 부탁드립니다..

일단 공부를 하는 입장에서, 베이스 라인 코드, 타 유저의 코드를 보지 않고 맨바닥에 해딩 해보자는 의미로 진행했습니다.
그래서 EDA 부분은 대부분 countplot으로 확인만 했습니다..

모델 부분은.. 여러 모델들이 있지만, 자세하게 어떨 때 어느 모델을 사용해야 하는지 몰라 단순히 pycaret을 돌렸습니다..

특별히 전처리를 한 것도 없고, pycaret의 하이퍼파라미터를 바꿔본 것뿐입니다..
(실제로는 여러 columns들도 생성해보고 전처리도 나름대로 진행해보고 차원도 줄여봤지만, 어떤 짓을 해도 주어진 columns만 사용하는게 점수에 좋았습니다.)
질문하셔도.. 대답해 드릴 수 있을지 의문이네요.. 

코드
로그인이 필요합니다
0 / 1000
하짱02
2022.02.21 15:14

1위 축하드립니다!! 

다냐니라
2022.02.21 15:19

감사합니다 :) 1위라니; 얼떨떨하네요.. 

joniekwon
2022.02.21 21:59

축하드립니다~ EDA의 중요성을 다시 한번 깨달았네용!! 잘보고갑니다 :D

다냐니라
2022.02.21 22:34

감사합니당.. 다른 분들에 비해 딱히 한 게 없어서 부끄럽네요 

오니온
2022.02.21 23:32

글 잘 봤습니다! EDA부분 접근을 굉장히 논리적으로 잘 접근하신 것 같습니다!bb 그런데 결론적으로 pycaret을 돌리기 전에 id column만 제거했을 뿐 파생변수 생성, 다중공선성이 높은 feature 제거 등의 별도의 feature 수정은 없으셨던 건가요??

다냐니라
2022.02.21 23:57

감사합니다 :)  결론부터 말씀드리자면, 특별한 feature 수정은 없었습니다. 다중공선성을 제거 , feature 생성/제거, 데이터 전처리, 차원축소 등등.. 시도는 많이 해봤으나, 결과가 좋지 못했습니다. ('Flight Distance'의 로그변환과 인코딩 정도 했습니다.)
나름대로 내린 결론은, 해당 데이터셋은 전처리 없이도 91.xx정도의 어느정도 높은(?) 정확도로 이미 구분 할 수 있기에 feature들을 만지는 것 보단, 모델 튜닝쪽에 신경을 써야 좋지 않을까?라는 생각을 했습니다.(개인적 생각임...)

영주야
2022.02.23 23:49

안녕하세요, 코드 잘 봤습니다:) 변수 하나하나에 굉장히 신경 쓰시는 모습이 정말 인상 깊습니다. 많이 배우고 싶어요ㅎㅎ 한가지 질문드릴 것이 있는데요, 모델링 파트에서 flight distance를 로그변환 하는 과정에서 np.log1p(1+df['Flight Distance']) 로 코드를 돌리셨는데 log1p() 함수 자체가 괄호 안에 1을 더해주는 함수가 아닌가 싶어서 결과적으로 괄호 안에 2를 더해준 것 같은데 일부러 그러신 건지 아니면 제가 잘못 알고 있는건지 확인하고 싶어 질문드립니다..!

다냐니라
2022.02.24 00:06

아 그렇네요?????  모르고 지나갔습니다.. 알고 계신 내용이 맞습니다! 알려주셔서 감사합니다!

백남진
2022.02.25 09:03

의문과 가정을 바탕으로 논리적으로 진행한 것에 저도 하나씩 배웠습니다. 1위 축하드립니다 :b 

다냐니라
2022.02.25 09:33

감사합니다 ~.~

doory114
2022.02.28 20:07

축하드립니다! 저는 feature에만 집중 했지 모델 튜닝에는 신경을 많이 못썼는데 앞으로는 모델 튜닝에도 시간 투자를 더 해야 될 것 같습니다.

이치치
2022.05.14 04:49

안녕하세요. fold와 앙상블 갯수를 노가다해서 결정하셨다고 하셨는데, public score를 기준으로 결정하신건가요? 아니면 validation set을 기준으로 결정하신 건가요?