자율주행 센서의 안테나 성능 예측 AI 경진대회

대회와 Y 스펙에 의미부여하기

2022.08.21 20:48 2,954 Views

대회가 거의 끝나가는데, 생각보다 리더보드 점수의 변동은 크지 않은 것 같습니다.

그만큼 이번 대회의 문제가 까다롭다고 생각합니다.


파생변수를 만들고, 온갖 방법을 써도 그닥 눈에 띄게 개선되는 것이 안보이네요.

저는 운좋게 조금 늦게라도 좋은 팀 버스를 타서 발표 김칫국을 마시며 여러가지 고민들을 하고 있습니다.


1. 왜 이렇게 눈에 띄는 개선 효과가 없을까?

제조업에서 이미 품질관리(QC) 과정에서 꼼꼼하게 설계하고 실험하기 때문에 어느정도 틀에 잡힌 결과가 데이터로 남아있다고 생각합니다.

대회의 목적자체가 "미처 생각하지 못한 부분을 ML로 찾아낼수 있을까?"라고 생각합니다.


2. Y 스펙은 왜 줬을까?

대회에서 제공된 데이터 중에서 y_spec 만큼 리더보드 점수 향상에 쓸모없는 데이터가 없습니다.

x에 대한 정보도 아니고, 어차피 점수는 Spec in/out이 아니라 그냥 y 자체를 예측하는 것이니까요.

10등안에 들어 발표를 하게 된다면, 충분히 고민해야할 데이터라고 생각합니다.


spec은 제조사가 직접 설정했을수도 있고 발주사가 설정했을 수도 있을 것 같은데요,

train 데이터를 기준으로 각 Y에 대해서 spec을 벗어나는 관측치의 비율을 계산해보면 0.01%~5% 수준인 것 같습니다.

제조업이 좋아하는 식스시그마 등을 활용해서 +-2시그마 ~+-4시그마 수준으로 설정된 것이 아닐까 생각합니다.



등수와 상관없이 실제 제조 비즈니스에서 이 데이터와 모형의  의미나 활용을 고민해보는 것도 좋을 것 같습니다:)

Login Required
0 / 1000
황윤태호랑이
2022.08.22 05:33

맞는말씀 입니다! 특히 이미 품질관리측면에서 충분히 잘 관리되고 있기때문에 ML/DL 앙상블 등등 사용하든지 혹은 피쳐엔지니어링을 열심히 하던지간에 성능향상이 적은것 같아요. 물론 피쳐에 대한 더 많은 정보를 우리가 알 수 있었다면 조금더 개선될것이라고 믿긴합니다 

datu
2022.08.22 09:47

"대회의 목적자체가 "미처 생각하지 못한 부분을 ML로 찾아낼수 있을까?"라고 생각합니다." 이 문구에 정말 공감합니다! 이미 잘 관리되어지고 있는 부분에서 찾을 수 있는 좋은 모델을 만드는게 이번 과제라고 생각이 듭니다. 좋은 생각 공유 감사합니다!

AI벌레
2022.08.22 20:13

공감합니다 리더보드 점수도 보면 큰 격차는 없는 것 같아요,,

EDEEP
2022.08.24 15:45

깊게 생각해보지 않으면 쉽게 생각해내지 못할 부분을 이렇게 공유해주셔서 감사합니다.
단순 data, prediction, fitting에만 몰두했는데 문제를 낸 입장에서의 '왜' 에 대한 인사이트를 담은 좋은 내용이네요.