월간 데이콘 반도체 박막 두께 분석 경진대회

간단한 EDA와 방향 공유

2020.01.11 14:27 7,985 조회

안녕하세요, 간단한 EDA 결과와 분석 방향을 공유합니다.



train 데이터에서 layer_1~layer_4를 살펴보면

각각 10부터 300까지, 총 30^4개의 조합에 대해 반사율 226개의 값이 측정되어 있습니다.



4개 레이어  각각에 대해서 10부터 300까지 226개 반사율의 평균을 구해서 열지도로 표현해보면 아래와 같습니다.



이미 제출하신 분들 중에 MAE가 20이 넘는 분들은 아마도

226개의 값으로 layer_1, layer_2, layer_3, layer_4를 각각 예측하신 분들일텐데요,

그렇게는 해결하기 어렵다는 것이 열지도에서 보입니다.


특정 layer의 두께가 두꺼워질수록 파장의 반사율이 단조 증가하거나 감소하는 것이 아니라

파장의 반사율도 파장처럼 높아졌다 낮아졌다를 반복하는 것이 보입니다.


예를들어 바로 위 layer_4가 10일 때의 226개 반사율의 패턴(첫번째 세로줄)과

200쯤일 때의 반사율 패턴이 생각보다 많이 닮은 것을 볼 수 있습니다.




예를 들어 MAE가 20쯤 된다는 것은 예측한 것마다 평균적으로 20씩은 차이가 난다는 것인데요,

10을 210으로 잘못 예측하면 200이 날아갑니다.


10개 중에서 9개 정도는 거의 정확하게 맞추고, 하나가 200 틀리면 MAE가 20이 되는것이죠.



물론 위의 열지도는 큰 축약이라서 모든 정보를 확인하는 것은 불가능 하지만 충분한 인사이트를 줍니다.




--------------------------


input과 output이 직선의 관계가 아니기 때문에 회귀모형은 적합하지 않을 것 같습니다.


의사결정나무 모형 기반의 random forest, gbm, xgboost를 쓰시려면 충분히 복잡한 모형 적합이 필요할 것 같구요,



제가 잘 모르지만 deep learning이 output layer 설정이 가능해서 기본적으로 퍼포먼스가 좋을 것처럼 보입니다.

layer_1~4 각각이 아니라 layer_1~4을 최종 레이어로 잡는다면요!



사실 엄밀하게 따져서 layer_1~4가 input이고 226개 반사율이 output인데,

이 문제는 226개 반사율로 layer_1~4를 추측하는 것이 목적이네요.

그럼 고전적으로 많이 쓰는 확률적인 접근도 괜찮을 것 같습니다.


모두 힘냅시다:D


로그인이 필요합니다
0 / 1000
heumsi
2020.01.11 15:13

우와 보팅이 있다면 드리고 싶네요. 인사이트를 주는 EDA 감사합니다 :)

DACONIO
2020.01.12 19:28

보팅 기능은 현재 개발중에 있습니다. 빠른 시일내에 개발이 될 수 있도록 하겠습니다. 
저희도 보팅 버튼이 있다면 누르고 싶은 좋은 자료네요.. :)

나뭉냐뭉
2020.01.12 17:08

좋은 EDA 감사합니다. !! :}

호랑이기운이불끈
2020.01.19 15:00

감사합니다 :)

visionNoob
2020.01.22 14:25

삭제된 댓글입니다