데이스쿨! 가을맞이 특별할인
분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
(잘못 측정된 것 같은) 범위를 크게 벗어나는 데이터들에 대한 질문
안녕하세요 퍼블릭 데이터 train.csv를 살펴보는 중인데
건고추의 가격이 잘못 표시된 부분이 다른 품목에 비해 많은 것 같습니다.
예를 들어 2016년 12월 31일의 건고추 kg당 가격은 13만원으로 표시되어 있고요... 그 외에도 10만원대를 넘는 값이 꽤 많습니다.
단순히 오류값이라 치부하기엔 유독 건고추 품목에 그런 값이 너무 많아 모델에 큰 영향을 줄 것 같아서요...
그냥 오류치인지 정확한 가격값인지 궁금합니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요, 김석우님!
문의해주신 train.csv에서 건고추가 10만원 이상에 거래되는 일자는 2016년 12월 31일, 2020년3월17일 두 개로 파악됩니다.
train.csv는 베이스라인 코드용으로 AT_TSALET_ALL 데이터를 가공한 데이터입니다. (https://dacon.io/competitions/official/235801/codeshare/3233?page=1&dtype=recent 참고)
AT_TSALET_ALL_201612에서 해당 일자에 거래된 건고추 데이터를 확인해보니,
진주도매시장에서 kg당 154000원, 156000원에 거래된 내역이 있어 영향을 받은 것 같습니다.
해당 거래내역에 대해 주최측을 통해 도매시장에 확인해본 결과, 실제로 해당 가격에 거래된 내역이 맞습니다.
하지만 매우 특이한 경우라고 설명해주셨습니다.
따라서 정확한 가격값은 맞으나, 이상치에 해당한다고 생각해주시면 될 것 같습니다.
해당 이상치에 대해서는 김석우님의 판단으로 적절한 전처리를 해주시면 됩니다.
감사합니다.
데이콘 드림.