시스템 품질 변화로 인한 사용자 불편 예지 AI 경진대회

1등 밀려난 기념 향후 방향 공유

2021.01.11 10:35 5,536 조회

안녕하세요, 역시나 1등에서 밀려난 세아아부지입니다.



그래도 아직까지는 상위권을 유지하고 있는데요, 기간이 많이 남은 만큼 여유있게 추이를 보면서 대응을 하려고 합니다.

등수가 낮으면 당연히 auc 스코어를 높이는데 초점을 둬야할텐데요, 어느정도 auc가 수준이 비슷해지면 복불복에 맡길 수 밖에 없을 거라 생각합니다.



그 이후에는 2차 평가를 염두에 둔 전략 수립이 필요할 것 같습니다.


      --------------------------------------------------------------------------------------------------------------------

  1. 2차 평가 : 리더보드 운영 종료 후 상위 20팀은 제출 양식에 맞춰 코드 및 PPT 제출
  2. 결과 분석, 비즈니스 분석
  3. 사용자 불만 접수 원인 분석
  4. err_data의 err간 관계 해석
  5. quality_data 수치 해석
  6. err_data와 quality_data간의 관계 해석 필수 포함

      --------------------------------------------------------------------------------------------------------------------


일단 20등안에 들어야 뭐라도 할 수 있는 거긴 하지만, 2차 평가는 AUC와는 별개인걸 볼 수 있습니다.

흔히 말하는 해석 가능한 ML/AI 관점으로 접근해야 합니다.


해석 가능한 모형을 만드려면 모형의 복잡도를 줄이는 시도가 필요합니다.

그런점에서 deep learning은 시작부터 너무 복잡하다는 단점이 있고,

random forest는 비교적 설명하기는 용이하지만, 성능지표(AUC)를 높이기 힘들다는 단점이 있습니다.


그 중간이 boosting 모형들일텐데요, boosting 기법 역시 AUC를 높이기 위해 튜닝을 하다보면 복잡해질 수 있습니다.



그래서 저는 이미 만든 모형에서 중요한 변수들을 중심으로 파생변수를 만들거나 변수를 추리는 작업을 하려고합니다.

2차 평가 지표를 보면,


err 데이터에서 주요 변수 찾기,

err 데이터에서 err간 연관 찾기(선후 관계),

quality 데이터에서 주요 변수 찾기 + quality의 임계값 찾기,

err 데이터와 quality 데이터의 연관 변수 찾기


작업을 해야하는 걸 알 수 있습니다.

그냥 다 때려넣고 알고리즘에 맡기는것이 아니라 저런 설명을 위한 변수들을 만들어 집어넣어야죠.



xgboost나 lightgbm등 tree를 기반으로 한 모형은 대부분 변수 중요도를 확인할 수 있습니다.

중요한 변수들 중심으로 다시 EDA를 진행해보는 것이 좋을 것 같습니다.



당장 눈앞의 AUC를 높이려면 여러 모형을 같이 활용하는 stacking 기법들도 고민할 수 있을 텐데요,

stacking이 되는 순간 해석은 산으로 갈 수 밖에 없습니다.

일단 깊히 들어가더라도 다시 뒤로 살짝 돌아와 다져야 합니다.



아직은 실력자들이 몰려오지 않아서 한자리 하고 있어서 있는 척, 공유해봅니다ㅎㅎ




로그인이 필요합니다
0 / 1000
하이하이123
2021.01.11 14:36

제가 하고 있는 걸 다시 한번 돌아보게 되네요 감사합니다!!