심리 성향 예측 AI 경진대회

월간 데이콘 8 | 심리 테스트 분석 | AUC | 분류

  • 상금 : 100만원+애플워치
  • 1,169팀
  • 마감
참여

정형데이터는 AutoML에 때려박고(?) 시작하자! PB Score: 0.77357

  • day2020.09.28 15:50
  • views4475 views
  • language Python
  • writer by SDSTony
댓글 29
PyCaret 이라는 AutoML 패키지를 사용하여 자체 베이스라인 모델을 구축하였습니다. 10줄 남짓 되는 코드로 준수한 모델을 구축해보세요! - 업로드하고 보니 이렇게 하면 index값도 같이 훈련이 되겠군요! index 컬럼은 보통 제외하시는 거를 권장드립니다!
코드
댓글 29개
  • 존버존버 2020.09.28 17:43

    존버정신이 필요가 없네요;

  • myunghoonjinmyunghoonjin 2020.09.28 18:30

    존버냉키...

  • 통계왕통계왕 2020.09.28 19:47

    꿀잼입니다

  • 분석왕분석왕 2020.09.29 03:26

    정말 효율성 좋은 라이브러리..! 좋은 글 감사합니다!

  • lalalayoyoyolalalayoyoyo 2020.09.29 10:05

    초급자용 예시보면 label값을 결과로 제출하더라구요.. 결과값을 score로 해야할지 label로 해야할지 헷갈리는데 상관없나요?

    • SDSTonySDSTony 2020.09.29 12:15

      AUC를 계산하기 위해서는 ROC를 그려야 합니다. 제가 알기로 AUC가 높게 나오게 ROC를 효율적으로 그릴려면 score로 예측하는 것이 좋습니다. 링크 하나 첨부드립니다. https://m.blog.naver.com/PostView.nhn?blogId=sharp_kiss&logNo=221599009671&categoryNo=109&proxyReferer=https:%2F%2Fwww.google.com%2F

  • okso6441okso6441 2020.09.29 10:50

    AutoML 첨 써봤는데 재밌네요 ㅋㅋ 공유 감사합니다 ㅎㅎ

  • kingpracticekingpractice 2020.09.30 11:14

    코오 공유 감사합니다! 써봐야겠네요!

  • ikarus9903ikarus9903 2020.09.30 18:19

    _catboost.pyx in _catboost._PoolBase._init_pool() _catboost.pyx in _catboost._PoolBase._init_pool() _catboost.pyx in _catboost._PoolBase._init_features_order_layout_pool() _catboost.pyx in _catboost._set_features_order_data_pd_data_frame() AttributeError: module 'pandas' has no attribute 'SparseDtype'

  • 성민석성민석 2020.09.30 19:39

    와 AutoML 재미있을 것 같네요 감사합니다

  • 제환제환 2020.10.06 09:07

    좋은 글 감사합니다 :)

  • 섬섬옥수섬섬옥수 2020.10.01 03:37

    삭제된 댓글입니다

  • Saturday.KSaturday.K 2020.10.03 22:01

    autoML 을 적용할 때는 데이터 전처리 과정은 아예 생략하는게 맞나요? 아니면 autoML 을 할때도 데이터전처리 과정을 거치는게 결과에 도움이 될까요? 이것저것 먼저 시험해보기 전에 질문드려봅니다. 감사합니다.

    • SDSTonySDSTony 2020.10.03 22:11

      PyCaret의 setup 함수 적용시 데이터 전처리가 자동으로 적용됩니다. setup함수 적용시 출력되는 표 보시면 original data가 (45532, 78)으로 칼럼 개수가 78개 입니다. 반면 Transformed Train Set이랑 Transformed Test Set은 칼럼 개수가 201개이죠? 이는 각종 전처리 (one-hot encoding 등)이 적용되어 칼럼 개수가 늘어난 것입니다. 또한 Numeric Imputer가 mean으로 설정되어 평균값으로 결측치가 대체되는 것을 알 수 있습니다.

    • SDSTonySDSTony 2020.10.03 22:13

      setup 함수에 각종 파라미터 값을 수정하면 전처리 방법을 다르게 가져갈 수 있습니다. 공식 문서 링크 첨부드립니다. https://pycaret.readthedocs.io/en/latest/index.html#pycaret.classification.setup

    • Saturday.KSaturday.K 2020.10.03 22:44

      감사합니다. 많은 도움이 되었습니다.

  • 윤기석윤기석 2020.10.05 11:39

    덕분에 autoML이라는 것을 처음 접하게 되었습니다...! 추천 꾸욱 눌렀습니다~

  • nevretnevret 2020.10.06 19:08

    저도 덕분에 AutoML 처음 접해보네요. 공유 감사드립니다 :)

  • KitsuneticKitsunetic 2020.10.07 12:47

    좋아욧 > _ <

  • KwonJHKwonJH 2020.10.08 10:22

    와 autoML 들을때마다 되게 먼느낌이라서 시도조차 못해봤는데 감사합니다

  • MatherMather 2020.10.09 21:02

    후....^^ 감사합니다.

  • hotorchhotorch 2020.10.10 11:15

    좋은 글 감사합니다!

  • BJPBJP 2020.10.20 13:22

    앙상블 부분을 실행할 때 java import 에러가 발생하는데 파이참 환경에서는 설치가 안되고 주피터는 되네요. 자이썬이나 주피터 같은 환경에서만 실행 할 수 있나요?

    • SDSTonySDSTony 2020.10.21 12:00

      현재 말씀주신 것으로 봤을 때는 IDE 자체적인 문제 같습니다. 에러 코드를 전체를 복붙 해주시거나 스샷 찍어서 포럼에 올려주시면 자세한 답변이 가능할 것 같습니다.

  • maxha97maxha97 2020.10.27 16:37

    다른 프로젝트 모델들 다시 돌려보니 좀 충격적이긴 하네용.... 덕분에 말로만 듣던 AUTOML 방법 하나 배워갑니당

  • 코드노동자코드노동자 2020.11.01 17:36

    저 혹시 하나 궁금한게 있습니다만, 제목에서 제시해주신 점수가 제출했을때 나오는 퍼블릭 스코어를 얘기하시는건가요? 전처리를 하고 제출했습니다만, AutoML에서 나온 점수와 실제로 제출했을때의 점수가 0.06 정도 차이가 나서 원래 이렇게 차이가 큰건지 궁금합니다.

    • SDSTonySDSTony 2020.11.01 17:49

      1. 네 Public Score 입니다. 대회 도중에는 Public Score 밖에 알 수 없습니다. 2. 제가 올린 코드에는 없는 전처리 과정을 추가하신건가요? 그 과정에서 뭔가 달라진 것 같습니다. 전체 과정을 똑같이 따라 하시더라도 제가 seed를 고정 안 해 두었기 때문에 미미한 차이는 발생 할 수 있습니다.

  • 프리만프리만 2020.11.21 14:31

    감사합니다.^^

  • 고수고수 2020.11.23 23:33

    와 신기하네요.. 이게 말로만듣던 오토엠엘..

로그인이 필요합니다로그인이 필요합니다
목록으로