펭귄 몸무게 예측 AI 해커톤

정형 | RMSE

  • moneyIcon 상금 : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 2021.12.27 ~ 2022.01.07 17:59 + Google Calendar
  • 863명 마감

 

범주형 데이터에 대한 One-Hot 인코딩에 대하여, 그리고 특징공학에 대하여

2022.01.04 21:21 896 조회

안녕하세요! 첫 Dacon참가입니다. 아직 초보지만 첫 걸음을 떼어봅니다. 첫 제출결과 103위를 기록했네요 모델은 약 8개의 모델 중 성능이 가장 좋았던 LinearRegression()모델을 사용했습니다.


Q1.

다름이 아니라, 범주형 데이터를 처리하는 과정에서, 값이 여러개인 'Species' 컬럼과 'Island' 컬럼은 One-Hot인코딩으로 처리하고 'Sex'는 남자면 1 여자면 0 이런식으로 처리하게 되는데, 혹시 'Sex'와 같이 몇 개 안되는 (예를 들어, 3개 이하) 종류의 값을 가지는 컬럼에 대해서 One-Hot인코딩으로 처리하게 될 때 안좋은 점이 있는지 궁금합니다!

반대로, 'Species' 컬럼과 'Island' 컬럼과 같이 종류가 다양한 컬럼에 대하여 1부터 n까지 종류에 따른 숫자를 지정하게 되면 안좋은 점이 있는지 문의드립니다!


Q2.

저는 숫자형 데이터에 대하여 Scailing을 적용하여 값을 줄여 사용하였습니다. 특징 공학(특징 조합으로 새로운 컬럼 생성 등등)에 따라 성능이 크게 달라지는 현상을 종종 목격했는데, 특징을 분석하는 방법과 그에 따른 특징 변환에 대하여 노하우가 있다면 알려주시면 배워나가겠습니다!


감사합니다.



로그인이 필요합니다
0 / 1000
DACONIO
2022.01.05 09:47

안녕하세요 성지코딩님.

대회에 관심을 갖고 참가해 주셔서 감사합니다.
대회 문의에는 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않습니다.
위의 게시글의 경우 자유게시판을 활용하시어 다른 참가자들과 토론을 통해 답변을 얻어보시는 것을 추천드립니다.
아래의 게시글을 참고해 보시길 바랍니다.
https://dacon.io/competitions/official/235863/talkboard/405661?page=1&dtype=recent

감사합니다.

wbpark
2022.01.07 02:17

안녕하세요. 저도 이번에 DACON 대회 처음 출전하는 초보입니다.
원핫 인코딩 단점이라고 하면, 차원의 저주라고 사용하는 열(컬럼/필드)의 개수가 아주아주 많아지는 경우 회귀분석의 정확도가 낮아질 수 있어요.
pca등으로 차원을 줄이거나, 원핫 인코딩을 수행하기 전에 '서로 구분하는 것이 의미없는 항목'끼리는 통합을 하는 게 방법이 될 수 있을 것 같습니다.
 

이전 글
public private 차이
대회 - 펭귄 몸무게 예측 AI 해커톤
좋아요 0
조회 1,200
댓글 1
3년 전
현재 글
범주형 데이터에 대한 One-Hot 인코딩에 대하여, 그리고 특징공학에 대하여
대회 - 펭귄 몸무게 예측 AI 해커톤
좋아요 0
조회 896
댓글 2
3년 전
다음 글
제출 문의
대회 - 펭귄 몸무게 예측 AI 해커톤
좋아요 0
조회 855
댓글 1
3년 전