분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
주차수요 예측 AI 경진대회
저급한 데이터로 스트레스 받고 있는것은 아닌지?
저급한 데이터로 스트레스받고 있는 것은 아닌지?
한국토지주택공사에서 제공된 데이터를 보면 급하게 가공한 듯한 흔적이 다수 보입니다.
이과정에서 혼동이 발생하는 부분은 많은 참여자 분께서 언급해주셨고
총 세대수와 주차면수 관계를 확인하는 과정에서 상식적으로 이해되지 않는 관계가 있어 여러분의 의견을 듣고자 합니다.
아래의 정보는 모두 인터넷으로 검색한 내용입니다.
Case 1 C1397
사업명 : 서울 강남 보금자리주택 [A5BL] 장기전세
" LH 강남 힐스테이트 5단지는 6층 ~ 12층 규모의 501동 ~ 505동 까지
5개 동 전용면적 23㎡ ~ 59㎡형 장기전세주택 370세대와
51㎡ ~ 59㎡형 10년 공공임대주택 419세대와 84㎡형 분납임대주택 550세대 등
총 1,339세대의 철근콘크리트 벽식 구조의 대규모 아파트 단지입니다"
이러한 소개를 LH에서 제공한 데이터에서 해당 아파트를 찾아보면 다음과 같습니다.
2.공공임대주택(419세대) + 분납임대주택(550세대)
발견하셨겠지만 동일한 사업이지만 단지코드가("C1397" vs "C2085" ) 다릅니다.
그러나 단지 내 주차면수와 등록차량의 수는 동일합니다.
공급유형 목록이 있음에도 불구하고 단지 코드를 구분하고 있습니다.
Case2 C2335
이곳은 93년에 완공된 아파트입니다.
초기 정보는 찾기 어렵고 중간중간 입주자 모집 공고에서 정보를 확인해보면
면적은 19.95, 26.85 두 종류로 확인되며 건설 세대수는 정보마다 다르지만 1600여 세대가 넘는 것으로 보입니다.
그러나 LH가 제공한 데이터에서 총세대수는 112가구로 임대 가구 수를 총세대수로 작성한 반면
단지 내 주차 면수는 636면으로 1600여 세대에 대한 주차면수를 기입한 것으로 보여 집니다,
잘 구조화된 데이터라면 (1) 단지 코드가 통일하거나 (2) 단지 코드가 다르게 관리하면서 공급유형별 주차면수와 등록차량 값이 분리되어 있거나
둘 중 한 가지 방식으로 작성되어 있을 겁니다. 단 (2)의 경우 공급유형마다 동이 다르고 주차장이 분리되어 있을 경우만 유용할 것입니다.
이렇게 관리를 위해 원본 데이터를 보존하지 않고 편의에 의한 데이터 가공한 결과
상식적으로 이해할 수 없는 주차면수와 세대수 관계를 보여주고 있으며 유사한 아파트가 더 있는 것으로 생각됩니다.
기준이 다른 데이터를 사용하는 것이 합당할까요?
대회 시작 후 4주가 경과 되었음에도 MAE가 90대라는 데이터의 문제가 있는 것이 아닐까 싶습니다.
이러한 데이터를 사용하여 만든 예측 모델을 실제 적용할 수 있을까요?
아님 80,70 MAE를 위해 위해 노가다로 아파트를 찾고 코드 병합을 해야 할까요?
안녕하세요. 끙정님
대회 참여에 불편을 드려 죄송합니다.
데이터에 대한 추가 검토중에 있으며 검토 후 안내드리겠습니다.
모델의 목적은 말씀 해주신대로 설계한 단지내주차면수가 적절한지 판단하는 것입니다.
이에 주차수요를 예측하여 설계한 주차면수가 과한지 부족한지를 판단하기위함입니다.
감사합니다.
삭제된 댓글입니다
안녕하세요. 인덕원역님
제보해주신 내용에 대해 사실관계 확인중에 있습니다.
내용을 확인하여 오류가 있는 부분이 확인되면 오류를 수정 배포 혹은 발생한 원인에 대한 내용을 검토후 안내해드리겠습니다.
대회 참여에 불편을 드려 죄송합니다.
감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저와 비슷한 생각을 하고 계셨군요.
다들 비슷한 생각을 하고 있는데 차마 입을 떼지 못하고 있다고 생각합니다.
데이터를 뜯어볼수록 오류가 너무 자주 눈에 보여서 오류를 잘 찾고 잘 수정하는 것이 과연 이 대회가 바라는 방향인가 하는 생각이 들 정도입니다.
무엇보다도 가장 이해가 가지 않는 것은 분석의 목적이 🏠 유형별 임대주택 "설계 시" 단지 내 적정 🅿️ 주차 수요를 예측 인데,
'단지내주차면수'를 변수로 제공한다는 것도 이해가 안 갑니다.
결국에 이 모델의 목적이 아파트 단지 설계 시에 적절한 주차 수요에 맞는 '단지내주차면수'를 산출하기 위함이 아닐까 하거든요.
여러모로 혼란스러운 대회입니다 :(
물론 어떤 데이터라도 의심을 가지고 최대한 전처리를 해가면서 좋은 결과를 내는 것도 실력이라고 하면 실력이라고 할 수 있겠지만,
이것이 "경진대회" 라는 측면에서는 그것이 합당한가에 대해서는 잘 모르겠습니다.