분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
월간 데이콘 기계 고장 진단 AI 경진대회
Unsupervised anomaly detection에 대해서
Train data에는 target(label)값이 나와있는데요. 굳이 Unsupervised anomaly detection을 이용해서 푸는지 이해가 안갑니다.
Unsupervised는 label이 없을 때 쓰는걸로 알고 있는데 Supervised anomaly detection 기법을 이용해야지 않나요?
대회에서는 Unsupervised anomaly detection 방식을 권장을 해서 이해가 안갑니다.
알려주시면 감사하겠습니다.
감사합니다.
답변해주셔서 감사합니다.
저도 방금 데이터의 라벨 클래스 비율을 확인했는데요... 여기는 고장난 팬의 갯수가 아예 없는데 이런 경우도
데이터의 불균형이라고 봐도 되는지 궁금합니다.
Train data는 모두 정상 샘플이라서 비지도학습의 Anomaly Detection을 이용하는 겁니다.
Train data에 정상/비정상 샘플이 다 섞여있는데 Label이 존재하지 않을 때도 마찬가지입니다.
답변해주셔서 감사합니다.
저도 지금 다시 Train data의 클래스 비율을 확인했는데 1279개 모두 정상이었습니다.
그래서 비지도 학습의 Anomaly detection을 하는거군요....
그런데 다 정상이라면 분석을 할 필요가 없는게 아닌가요?
Unsupervised Anomaly detection으로 원래 정상인 샘플들을 불량으로 예측을 할 수 있을텐데
오히려 이 데이터에는 사용하면 안되는거 아닌가요?
* 비지도 학습으로 이상치 감지를 하는 이유는 미래에 어떤 방식으로 불량이 날 지 모르기 때문입니다. 지도 학습의 경우 이럴 때만 불량이라고 가르치기에 새로운 패턴의 불량이 발생할 경우 지도 학습으로는 식별하기 어렵습니다 (Test Set에 어떤 형태 불량이 발생하였는 지 모름)
* 데이터의 FAN TYPE이 두가지로 나뉩니다. 각 FAN TYPE별 정상인 경우의 데이터 패턴이 다를 수 있습니다. 하나의 모델로 모든 FAN TYPE별로 이상치 감지를 하기위해서는 데이터 분석을 통해 공통적인 정상 패턴을 찾거나 전처리를 통해 FAN TYPE과 상관없이 일정한 패턴을 가지도록 해야한다고 생각합니다
네 감사합니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
제 생각에는 만약 타겟 변수의 레이블이 불균형이 심한 경우 검증과 예측 단계에서 이로 인한 문제가 발생할 수 있고 오버샘플링으로도 해결이 잘 안될 경우를 염두해서 추가로 정상레이블의 이상치를 탐지하여 타겟 변수의 균형을 좀 더 맞출 수 있지 않을까요?