월간 데이콘 기계 고장 진단 AI 경진대회

Unsupervised anomaly detection에 대해서

2023.01.18 15:04 1,577 Views

Train data에는 target(label)값이 나와있는데요. 굳이 Unsupervised  anomaly detection을 이용해서 푸는지 이해가 안갑니다.

Unsupervised는 label이 없을 때 쓰는걸로 알고 있는데 Supervised anomaly detection 기법을 이용해야지 않나요?

대회에서는 Unsupervised anomaly detection 방식을 권장을 해서 이해가 안갑니다.


알려주시면 감사하겠습니다.

감사합니다.

로그인이 필요합니다
0 / 1000
iureifjdkncd
2023.01.18 15:19

제 생각에는 만약 타겟 변수의 레이블이 불균형이 심한 경우 검증과 예측 단계에서 이로 인한 문제가 발생할 수 있고 오버샘플링으로도 해결이 잘 안될 경우를 염두해서 추가로 정상레이블의 이상치를 탐지하여 타겟 변수의  균형을 좀 더 맞출 수 있지 않을까요?

통계
2023.01.18 16:01

답변해주셔서 감사합니다.
저도 방금 데이터의 라벨 클래스 비율을 확인했는데요... 여기는 고장난 팬의 갯수가 아예 없는데 이런 경우도 
데이터의 불균형이라고 봐도 되는지 궁금합니다.

NN_is_all_you_need
2023.01.18 15:19

Train data는 모두 정상 샘플이라서 비지도학습의 Anomaly Detection을 이용하는 겁니다.
Train data에 정상/비정상 샘플이 다 섞여있는데 Label이 존재하지 않을 때도 마찬가지입니다.

통계
2023.01.18 16:00

답변해주셔서 감사합니다.
저도 지금 다시 Train data의 클래스 비율을 확인했는데 1279개 모두 정상이었습니다. 
 그래서 비지도 학습의 Anomaly detection을 하는거군요.... 
그런데 다 정상이라면 분석을 할 필요가 없는게 아닌가요? 
Unsupervised Anomaly detection으로 원래 정상인 샘플들을 불량으로 예측을 할 수 있을텐데 
오히려 이 데이터에는 사용하면 안되는거 아닌가요?

권남우
2023.01.18 19:48

 * 비지도 학습으로 이상치 감지를 하는 이유는 미래에 어떤 방식으로 불량이 날 지 모르기 때문입니다. 지도 학습의 경우 이럴 때만 불량이라고 가르치기에 새로운 패턴의 불량이 발생할 경우 지도 학습으로는 식별하기 어렵습니다 (Test Set에 어떤 형태 불량이 발생하였는 지 모름)

* 데이터의 FAN TYPE이 두가지로 나뉩니다. 각 FAN TYPE별 정상인 경우의 데이터 패턴이 다를 수 있습니다. 하나의 모델로 모든 FAN TYPE별로 이상치 감지를 하기위해서는 데이터 분석을 통해 공통적인 정상 패턴을 찾거나 전처리를 통해 FAN TYPE과 상관없이 일정한 패턴을 가지도록 해야한다고 생각합니다

통계
2023.01.18 23:56

네 감사합니다.

감사합니다.