분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이타에 대한 이해를 돕고자 .....
훈련용 데이타 파일 3개는 다음의 시나리오를 기반으로 설명되어집니다.
데이타 이해를 돕기 위해 최대한 합리적으로 생각해 본 시나리오일 뿐입니다.
보완점이 있다면 댓글주셔요. 수정하겠습니다.
LG 는 2020년 1월에 차세대 식기세척기 9개 모델을 출시합니다.
차세대 식기세척기의 주요 기능 중 하나는 설치된 주변이 Wifi가 있는 경우
이를 자동으로 검색 및 접속하고 "고객 동의 절차를 진행" 한 후 LG 고객서비스 센터 서버에
자동 접속합니다.
고객이 식기세척기를 사용하는 중에 내부오류가 발생하면 "자동 오류 수정(Auto Error Recovery)" 기능으로
복구되며, 오류발생 상세정보는 LG 고객서비스 센터 서버에 자동 전송합니다.
또 하나의 중요 기능은 단위 용량 및 시간당 적은 물을 사용하여 신속하게 세척하는 기능을 끊임없이
연구한 결과 식기 세척 기능이 업그레이드 되면 고객에게 무상으로 자동 업그레이드 해드립니다.
(Fireware 버전 자동 업그레이드 기능)
판매 출시 1년이 지난 현재일자를 기준으로 구매 고객은 50만명이며,
이중에 위의 "동의 절차"에 따라 사용하는 고객은 약 5만명 입니다.
최근 들어 고객 불편, 민원이 늘어나고 있으며, 이는 시스템 업그레이드에 의한 품질변화로
예상하고 있습니다. LG 는 시스템 업그레이드에 의한 품질변화로 향후 얼마의 고객 불편, 민원이 늘어날지
예측하고 싶습니다. 또한 시스템 업그레이드에 의한 품질변화로 인한 불편/불만인지 결과 분석, 그에 따른 비즈니스 분석,
실제 사용자 불만 접수 원인 분석을 하고 싶습니다.
- 가상 시나리오 끝
위와 같은 가상 시나리오를 기반으로 하여 본 대회의 데이타가 제공된다고 또 다른 가정을 하겠습니다.
1. train_err_data.csv
고객이 식기 세척기를 사용하는 중에 오류가 발생하면 상태와 관련 있는 로그만 자동으로 고객서비스 센터로 전송합니다.
이 오류 자동 검출 정보가 train_err_data.csv 입니다.
오류가 발생할 때 마다 누적되어 16,554,663이 제공됩니다.
2. train_problem_data.csv
오프라인 매장에 있는 LG 고객서비스 센터 센터에 불만/불편이 접수된 정보인 train_problem_data.csv 가 제공됩니다.
이 파일에는 고객번호(user_id), 불편/불만 발생일시(time)이 제공됩니다.
불편/불만 접수된 고객 5,429명의 정보가 제공합니다.
3. train_quality_data.csv
사용자가 식기 세척기를 작동하면서 오류가 발생하면 측정가능한 지표 12가지를 2시간 간격으로 수집하여 자동으로 LG 고객 서비스 센터로 전송됩니다. 이렇게 수집된 정보 828,624건이 제공됩니다.
train_quality_data.csv파일은 서비스 만족도 조사결과 정보이며, 건수로는 약 828,624건이 제공됩니다.
보다 좋은 서비스를 위하여 고객을 대상으로 품질평가를 요청하여 회신을 받습니다.
로 구성되어 있습니다.
품질평가는 불만접수 1번에 2회 실시합니다. 불만접수 시 1회 및 불만접수 처리 후 1회에 실시합니다.
물론 불만접수 시 또는 물반접수 처리 후 총 2회의 만족도 조사 중 1회만 참여하는 경우도 있습니다.
예측해야하는 것은 또 다른 오류 자동 검출 정보(test_err_data.csv) 16,532,648건과
오류 발생 후 2시간 간격으로 측정된 오류로그 정보(test_quality_data.csv) 747,972건을 바탕으로
또 다른 고객 14,999명이 불편/불만을 접수할 것인지를 예측하는 것입니다.
그리고....
또한 quality 데이터에 기록된 시간 수치와, 일정한 간격 (2시간 동안 10분씩 찍힘) 역시 품질평가 점수라는 의견에 입각해서 생각해보면 이해가 잘 되지 않는데, 이에대해서도 어떻게 생각하시는지 궁금합니다! (사실 quality 데이터의 정보에 관해서는 업데이트된 데이터 설명에서 확인해보실 수 있습니다)
좋은 의견 감사합니다. Bbori님 의견이 맞습니다. 수정하도록 하겠습니다.
와.... 마치 테마주 시나리오를 보는 느낌이네요. 이런건 어떻게 생각해내시는거죠? 멋집니다 ㄷㄷ
감사합니다. ^^*
잘 만들어진 소설을 보는 느낌이군요. 감사합니다 ㅎㅎ
감사합니다. ^^* Score는 오르지 않고...답답해서 ㅋ
시나리오 및 분석을 통해 데이터에 대한 이해도가 높아졌네요, 고맙습니다. :)
감사합니다. ^^*
좋은 시나리오와 분석 감사합니다~~~~
감사합니다. ^^* ㅎㅎㅎㅎㅎㅎ
좋은 내용입니다.
우선, 공유해주신 내용에 대해 감사드립니다.
저도 시작 전 비슷한 시나리오를 작성해서 진행 중 입니다.
저의 시나리오를 말씀드리자면 이 데이터는 스마트 TV에 대한 데이터 같습니다.
스마트 티비에 설치된 다양한 앱을 사용하면서 발생하는 오류코드 정보
또는 결제 시스템 오류, 펌웨어 업데이트 이후 변경된 UI에 대한 불만 등 다양한 스토리가 들어있는 것으로 판단됩니다.
가장 많은 불만이 나타나는 패턴은 CONNECTION과 연관된 내용인 것으로 확인했습니다.(물론 전처리에 따라 내용은 다를 수 있습니다.)
연결 해제가 큰 요인으로 작용할 수 오류와 시나리오를 연결지으면
넷플릭스와 같은 앱 이용시 컨텐츠를 스트리밍하는 과정에서 연결 불가 또는 연결 도중 해제 등이 있습니다.
우연에 일치인지 특정 오류는 다른 브랜드의 스마트 티비에서 넷플릿스 접속에 문제가 발생할떄 나오는 오류코드와 동일함을 확인하였습니다.
저의 글이 분석에 도움이 되셨으면 좋겠습니다.
Wow ~~~ 대박입니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요, 우선 좋은 분석 감사합니다:)
분석 내용 중, 몇가지 확인하고 싶은점이있습니다.
quality 데이터가 품질평가 점수로서 불만접수를 한 사람을 대상으로 실시된 것이라고 하셨는데,
quality 데이터에 기록된 user_id 중에는 불만접수를 하지 않은 사용자의 user_id의 기록도 포함되어있습니다.
또한 quality 데이터가 만족도 조사라면, quality 데이터의 기술통계값에서 마이너스(-) 값이 나오는 경우와 비규칙적인 수치들 (가령, 최댓값이 일정하지 않음) 등은 다소 이해가 되지 않습니다. 이에 관해서는 어떻게 생각하시는지 TREX99 님의 생각이 궁금합니다