분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
자율주행 센서의 안테나 성능 예측 AI 경진대회
Validation 결과 분석 공유
데이터 시각화관련해서 도움을 많이 받기도 했고 다른 분들의 생각이 궁금해 저도 하나 올려보려고 합니다.
다양한 모델을 써봣지만 XGBRegressor이 LB 기준으로는 잘 나오는 것 같습니다.
제 Validation Set에 대해서 모델이 어떻게 예측하고 있는지를 보았습니다.
첨부한 사진처럼 Prediction의 분포가 True 값의 분포에 비해 좁게 나타나는 경향을 확인할 수 있었습니다. (두 축의 단위가 다름을 감안하고 보았을 때)
따라서 다른 분들이 말씀하시는 것처럼 Feature Engineering이 중요한 대회가 되지 않을까 생각이 들었습니다. 이외에도 다양한 해석이 가능할 것 같습니다.
타겟 변수랑 별 관련이 없어 보이는 피처들 뿐인데 그것들 가지고 타겟변수를 잘 설명할 수 있는 파생변수를 누가 더 잘 만들어내느냐 하는 것이 이번 대회의 핵심 키포인트인 것 같습니다. 공정과정에 의해 성능이 결정되는 것은 분명하니 분명 타겟변수를 잘 설명할 수 있는 그 무언가가 있을 것 같기는 합니다. 설명력이 높은 파생변수를 찾으면 결국 왜 성능을 잘 예측할 수 있었는지 알 수 있을 것 같기도 합니다. 물론 도메인지식과는 거리가 있을 수도 있구요. ^^
참고로 실제값보다 예측값의 표준편차가 너무 작아서 평균값을 기준으로 강제로 퍼트려봤는데 오히려 더 성능이 안 좋아지더라구요. 참고요. ㅎㅎ
저는 prediction의 분포가 좁게 나타나는 것이 데이터의 각 피쳐 값의 차이가 뚜렷하지 않아서 그렇지 않을까 생각하고 있습니다.
Tree 기반의 모델의 경우 트리를 분할하는 방식이 여러 변수에 걸쳐진 경향을 파악하기는 어렵지 않을까 개인적으로 생각했는데,
그것을 feature engineering으로 보완하면 좋은 결과 있지 않을까... 하고 시도하고 있습니다.
안녕하세요 글 잘읽고 추천 드렸습니다! 혹시 LB 기준이 어떤 약자인지, 설명 가능할까요!?🙏
리더보드 입니다
안녕하세요. 먼저 글 읽고 추천드렸습니다.
제가 LG AI를 통해서 처음으로 딥러닝 모델을 실전으로 다뤄보는 중인데 다른 사람들이나 작성자 분들처럼 데이터를 분석하고 다른 전처리를 생각하면서 하기엔 어려워서 질문을 하고 싶어서 댓글 남깁니다.
윗 댓글 다신 분 처럼 다른 변수를 찾아내고 하는 과정 없이 있는 데이터 만으로 학습을 하기에는 어려움이 큰 지 궁금합니다. 처음 해보는 과정이라 수료가 목표입니다..
문제없습니다.
데이터 만으로 학습하신다면 기본적인 선형회귀 돌려보세요(코드 공유에 있습니다)
대회에서 좋은 성적 내고 싶다면 그때 전처리를 하시면 됩니다!(모델을 바꾸거나, 파라미터를 바꾸거나 등등)
주어진 데이터만으로 학습해도 충분히 좋은 성적을 낼 수 있습니다. 다른 변수를 찾아내려는 과정은 0.00X점 정도를 올리려고 시도하는 과정이고, 충분히 주어진 데이터에 맞는 모델을 찾아서 하이퍼파라미터 튜닝을 시도해도 순위권 내에 들 수 있습니다.
수료 기준치는 Dacon에서 주어진 Baseline에서 다른 모델을 찾아보고, 사용하기만 해도 충분히 가능합니다!
윗댓분들 감사합니다 열심히해볼게용! 화이팅!
이번 대회에 딥러닝 모델을 다루신다고 하여 씁니다.
개인적인 의견입니다만 정형데이터 tabular, structured data 라 불리는 즉 table 형태로 주어진 데이터는 딥러닝보다 기존 머신러닝계열에서 탑을 찍은 모델들이 더 잘돌아갑니다.
뉴럴네트워트보다 Catboost나 LGBM XGBoost 같은 모델을 사용해보시는 편을 개인적으로 추천드립니다.
무엇보다 시간이 많이 남지않아 기존 머신러닝 계열 모델들이 스코어를 기준을 한다면 현재로써 탁월한 선택이라고 생각합니다.
deep한 뉴럴넷보다 Boost 계열이 훨씬 빠르게 모델 트레이닝이 가능하기 때문이며,
그리고 무엇보다 ensemble을 만드시는 것을 추천드립니다.
일단 R2 score도 굉장히 낮은 걸로 보아 데이터 자체가 모델 결과에 유의미한 결과를 주지 못하는 거 같은데 0.01 score 올리는 게 무슨 의미가 있는지도 의문이에요..
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
이번 문제는 설명이 되게 적어서 제대로 피쳐를 만든건지 좋은건지 잘 모르겠습니다 ㅠㅠ.. 대제적으로 y변수랑 거의 상관없는 피쳐들이라서 결과가 잘나와도 왜 잘된건지에 대해서 자꾸 의심이드네요