시스템 품질 변화로 인한 사용자 불편 예지 AI 경진대회

퀄리티 접근 방향에 대해서 고민중입니다

2021.01.30 18:02 6,019 조회

안녕하세요.


퀄리티 데이터에 대한 분석을 여러가지 방면으로 시도해보고 있습니다.


먼저 처음엔 단순히 분포를 보기 위해 그래프를 그려봤는데 별 다른 특징이 보이지 않더라고요



그 중 저희가 시도 해본 방법 중 하나가 앞선 글의 참가자님처럼 바로 불만 접수 시점을 고려해보는 건데요,


불만 접수가 일어난 시점 바로 이전 데이터가 불만을 일으킨 원인이라고 생각을 하는 것이었습니다.


예를 들어 10000번 유저가 4.33.1111 ->  4.33.2222  ->  4.33.3333 으로 펌웨어를 업데이트하였고 4.33.2222 펌웨어를 사용하다가 불만을 접수했다면 다음처럼 problem 정보를 입력해줍니다.


10000, 4.33.1111 -> y =0

10000, 4.33.2222 -> y =1

10000, 4.33.3333 -> y =0 # 이후 불만 접수가 없기 때문에 새로 업데이트한 펌웨어에 대해서는 문제가 없음



그리고 groupby (user_id,fwver)를 통해서 통계 정보를 하나의 row로 만들고 예측을 진행해주었습니다.



그러나 모델 성능이 여전히 나빠서 다른 분석 방법을 고민중입니다.





대회가 얼마 안남기는 했지만 다른 분들은 어떤 접근 방법으로 퀄리티 데이터를 사용하고 계시는지 궁금합니다!



감사합니다.






로그인이 필요합니다
0 / 1000
Statistics
2021.01.31 15:37

퀄리티 데이터는 "데이터 추가 설명" 공지에 나와 있듯이 "사용자의 시스템 작동 중 문제가 발생하면 측정 가능한 지표들로 해당 시점으로부터 2시간 단위 수집"되는 데이터입니다.
사실상 현황파악이나 후속조치와 관련되어 있을 가능성도 있습니다.
그럼 오히려 "어떤 에러가 발생하면 퀄리티 체크를 할까?"를 고민하는 것이 나을 수 있구요!

퀄리티 데이터의 건(행)수만 봐도 실제로 불만 제기한 사람들이 더 많다는 걸 알 수 있습니다. 
이미 퀄리티 체크를 할 때는 뭔가 일이 터진 상황이라고 생각할 수 있는 것이죠.

그런데 앞서서도 글을 썼지만, 이 대회 문제는 상황의 특성상 "예지"+"후속조치"를 모두 설명하는 문제가 되었습니다.
그래서 그냥 퀄리티 건수, 특정 변수의 최댓값 등으로도 어느정도 불만 제기한 사람들을 설명할 수 있습니다.