펭귄 몸무게 예측 AI 해커톤

정형 | RMSE

  • moneyIcon Prize : 참가시 최소 50 XP, 특별상 데이콘 후드
  • 837명 마감

 

쉽게 따라할 수 있는 펭귄 몸무게 예측 EDA + 모델(Public 309.925)

2021.12.28 00:12 4,256 Views language

안녕하세요.  간단한 EDA 코드를 공유하고자 합니다.
코드는 최대한 어렵지 않게 썼고 설명 보시면 이해에 도움이 되실 것 같습니다.
이해가 안되시는 부분은 댓글 남겨주시면 답변 달아드릴께요.
잘 읽어주셨으면 추천 부탁드려요!

제 깃허브 블로그에도 업로드 했으니 많은 방문 부탁드려요.
(https://ksy1526.github.io/myblog/)

Code
로그인이 필요합니다
0 / 1000
Taeang
2021.12.28 02:26

RMSE부분이 많은 도움 되었습니다. 감사합니다.

ssu통계학과
2021.12.28 12:15

도움 되어서 다행입니다.

백남진
2021.12.28 16:50

vioplot을 잊고 있었는데 다시 생각하게 되었네요. 감사합니다!

ssu통계학과
2021.12.28 17:40

시각화 하는데 대단히 좋은 함수인 것 같아요. 데이콘 운영자님이 작성하신 코드를 참고했습니다.

young123
2021.12.29 16:20

기본 틀 잡기 너무 편했어요 고맙습니당

ssu통계학과
2021.12.29 19:57

쉽게 이해할 수 있게 쓰도록 노력했는데 잘 읽혀서 다행입니다!

쾌변의화신
2021.12.29 23:00

감사합니다~ 오늘 데이터 시각화/머신러닝에 대한 이해도가 20배는 오른 것 같습니다

ssu통계학과
2021.12.30 11:01

20배나 올랐다니 기쁘네요. 감사합니다.

응븝응
2021.12.30 14:24

여기서 저는 '테스트 데이터(test.csv)를 학습에 사용' 하지 않기 위해 트레인 데이터만 스케일링에 사용했는데요.
라고 하셨는데 
test_scaler = scaler.transform(test[continuous_names])
test[continuous_names] = pd.DataFrame(data=test_scaler, columns=continuous_names)
이게  테스트 데이터 스케일링된 거 아닌가용???

ssu통계학과
2021.12.30 20:50

스케일러는 fit과 transform으로 나뉩니다. 
fit은 스케일러를 적용시키기 위해 학습하는 것이며, transform은 학습된 스케일러를 사용해 스케일링 하는 것입니다.
본문에서 트레인 데이터를 fit_transform을 통해 학습과 스케일링을 같이 진행했습니다.
그 이후 테스터 데이터로는 transform만 진행했는데요. 이는 이미 트레인 데이터로 만든 스케일러를 사용하는 것 뿐입니다.
그렇기 때문에 테스트 데이터를 학습에 사용하지 않았다고 판단했습니다.
대회 문의 게시판에 제가 쓴 글을 참고하시면 도움이 더 되실것 같아요.
감사합니다.

햄찌콘
2022.01.01 16:26

안녕하세요 우선 작성해주신 글이 큰 도움 되었습니다. 감사합니다.

test.fillna(train.mean(), inplace = True)
는 테스트 데이터 스케일링을 막기위해 test.mean() 대신 train.mean()을 하신게 맞을까요? 혹시 아니라면 그 이유를 설명해주시면 큰 도움이 될 것 같아요.

ssu통계학과
2022.01.02 16:10

우선 큰 도움이 되었다니 기쁩니다.

질문하신 부분은 테스트 데이터 스케일링을 막기위해 한 것이 맞습니다.

데이콘 운영자님이 쓰신 다음 공지 참고하시면 이해가 잘 되실거 같아요!
(https://dacon.io/competitions/official/235848/talkboard/405684?page=1&dtype=recent)

세아
2022.01.05 20:57

으앗! 머신러닝 처음해 보는데 이것 보고 정말 도움 많이 되었어요! 감사해요~~

ssu통계학과
2022.01.06 13:06

좋게 봐주셔서 감사합니다!

3Vdata
2022.01.05 22:32

이상치를 확인하는 것 제외하고 분포를 확인하는 이유가 있을까요?

ssu통계학과
2022.01.06 13:08

분포를 통해서도 충분히 이상치를 직관적으로 확인할 수 있다고 생각했습니다!

wbpark
2022.01.07 22:21

저도 데이터 분석할 떄 시각화에 힘 많이 주면서 하는데 반갑습니다!
histogram, hitmap, violinplot 으로 시각화 하신 내용 
저는 pair plot, box plot, swarm plot 이용해서 시각화 했어요! 한번 봐주세요!
https://dacon.io/competitions/official/235862/codeshare/4125

ssu통계학과
2022.01.08 21:20

올려주신 코드 잘 읽었습니다. 우선 높은 등수 축하드립니다.
시각화에 힘을 많이 주면 확실히 데이터를 직관적으로 바라볼 수 있어서 방향성을 잡기에 좋은것 같아요.
올려주신 코드 중 6개의 클러스터로 나눈 부분 인상깊게 읽었습니다. 감사합니다.