주차수요 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | MAE

  • moneyIcon Prize : 총 1,300만원
  • 2,217명 마감

 

[공지] 데이터 오류에대한 사과문 및 처리방안

2021.07.09 17:04 4,643 Views

안녕하십니까. 한국토지주택공사 빅데이터센터입니다.

경진대회 참가자 분들께서 지적해 주신 바와 같이, 과제 분석을 위해 제공한 데이터에서 일부 오류가 존재함을 확인하였습니다.

먼저, 오류를 사전에 발견하지 못하고 경진대회용 데이터를 제공하게 되어 참가자 여러분께 불편을 끼쳐드린 점 진심으로 사과의 말씀을 드립니다.

 

여러분들께서 제보하신 내용을 받아 확인해 본 결과 발견된 오류는 3가지 유형으로서,

첫째 전용면적별 세대수 합계와 총세대수가 일치하지 않는 경우,

둘째 동일한 단지에 단지코드가 2개로 부여되어 단지코드 ․ 총세대수 ․ 주차면수 ․ 등록차량대수 등에서 오류 발생,

셋째 단지코드 등 기입 실수로 단지코드 ․ 총세대수 ․ 주차면수 ․ 등록차량대수 등에서 오류 발생

이며 구체적인 내용은 각각 아래와 같습니다.


1. 전용면적별 세대수 합계와 총세대수가 일치하지 않는 경우 

- (오류 내용) 제공한 데이터(트레인 및 테스트) 중 총 58개 단지에서 전용면적별 세대수 합계가 총세대수보다 적은 경우가 발생하였습니다.

- (분포 현황) 차이는 최소 1세대부터 최대 452세대까지이며, 그 가운데 48개 단지(83%) 는 차이가 1~14세대, 나머지 10개 단지(17%) 는 차이가 94~452세대 사이에 분포합니다.

- (발생 원인) 차이는 분양상가 또는 분양아파트가 임대단지 안에 혼합되어 발생한 것으로, 분양 완료된 상가 ․ 아파트는 관리대상에서 제외되어 전용면적별 세대수에서는 포함되지 않았으나 총세대수에는 포함되었습니다.

- (관련 데이터) 차이가 14세대 이하인 48개 단지는 분양상가, 차이가 94~452세대에 분포하는 10개 단지는 분양아파트 혼합단지인 것으로 확인되며, 아래 10개 단지의 코드를 확인하셔서 데이터 분석에 참고해주시기 바랍니다.

※ 차이가 14세대 이하인 48개 단지 : 하단 별첨 참조

※ 차이가 94~452세대인 10개 단지(크기순) : ['C1490', 'C2497', 'C2620', 'C1344', 'C1024', 'C2470', 'C1206', 'C1740', 'C2405', 'C1804’]


2. 동일한 단지에 단지코드가 2개로 부여된 경우 

- (오류 내용) 동일한 단지임에도 불구하고 코드가 2개로 부여되어 별개의 단지로 인식되도록 데이터가 제공되었고, 그로 인해 주차면수는 2개 단지에 합산값으로 기재되었고 총세대수는 2개 단지에 각각 계상된 형태로 나타났습니다.

- (발생 원인) 1번과 마찬가지로 분양과 임대가 혼합된 유형의 단지임으로 인해 발생한 오류이나 1번에서는 분양세대에 단지코드가 부여되지 않고 전용면적별 세대수에서 빠져있는 반면, 2번에서는 분양세대에도 단지코드가 부여되어 별개의 단지인 것처럼 인식되었습니다.

- (참고 사항) 주차면수는 하나의 단지임을 전제로 산정된 것이고 총세대수는 두 개 단지의 합계입니다. 다만 등록차량대수는 ['C2085', 'C1397'] 단지의 경우 동일 수치, ['C2431', 'C1649']] 단지의 경우 두 개 단지 합계입니다.

- (관련 데이터) 아래와 같이 총 3개 단지 6개 코드에서 같은 유형의 오류가 확인되었습니다. 

※ 동일한 단지에 코드가 2개로 부여된 단지 코드 (3쌍) : ['C2085', 'C1397'], ['C2431', 'C1649'], ['C1036', 'C2675']

- C2675 단지는 테스트셋, 나머지는 트레인셋 입니다.

 

3. 단지코드 등 기입 실수로 데이터 정제 과정에서 매칭 오류 발생  

- (오류 내용) 단지코드 등 기입 실수로 총세대수가 주차면수에 비해 과하게 많거나 적은 경우가 발생하였고, 점검 결과 일부 데이터의 단지코드, 총세대수, 주차면수 등에서 오류가 검출되었습니다.

- (발생 원인) 원천데이터 수집 과정에서 단지 코드 등이 잘못 기입되었고 이를 인지하지 못한 채 데이터 정제를 하여 오류가 발생하였습니다.

- (관련 데이터) 아래와 같이 총 9개 단지에서 같은 문제가 확인되었습니다.

※ 실수가 발생한 단지 코드 (9개 단지) : ['C2335', 'C1327', 'C1095', 'C2051', 'C1218', 'C1894', 'C2483', 'C1502', 'C1988']

- C2335, C1327 단지는 테스트셋, 나머지는 트레인셋 입니다.


4. 오류 데이터 처리 방안

- 제공한 데이터상에 문제점이 발견되었으나 대회 중반에 들어선 시점에서 오류를 수정하여 재배포할 경우 혼란이 가중될 것이 우려되어 데이터 수정/재배포는 없을 예정입니다.

- 1번 오류의 경우 해당 사실을 감안하여 분석을 진행해 주시기 바라며, 2, 3번 오류의 경우에는 문제가 된 단지들을 트레인셋에서 제외하기를 권장드리고, 테스트셋에서는 평가 시 제외하고자 합니다.

- 테스트셋에서 평가 제외되는 데이터는 'C2675'(2번 사항에 해당), 'C2335', 'C1327'(3번 사항에 해당) 3개 단지입니다.

- 제출 양식은 변경되지 않으니 기존 제출 양식에 따라 제출 부탁드립니다.('C2675', 'C2335', 'C1327' 단지 예측 결과는 평가되지 않습니다.)

- 이번에 검출된 오류 외 혹시 모를 추가적인 오류발생을 대비해 데이터 검증을 계속 진행중이며 문제 발견시 공지 및 안내해드리겠습니다.

 

이상 확인된 오류 건에 대하여 주최 측에서는 위에 기술한 방식으로 해결하고자 함을 알려드리며, 참가자 여러분들께 추가적인 불편이나 경쟁의 불공정 요인이 발생하지 않도록 모든 노력을 다하겠습니다.

데이터 검증 과정에 더욱 철저하지 못했던 점 다시한번 사과를 드립니다.

또한 임대주택 단지 내 적정 주차면수 확보를 통한 입주민의 주거만족도 개선이라는 본 대회의 취지에 맞게 여러분들께서 제출하신 결과물은 국민 편익 증진을 위해 유용하게 활용될 것임을 말씀드리며, 올해 10월 중 철저하게 검증/보완된 데이터를 완비하여 참가자 여러분께서 최대한의 역량을 발휘할 수 있는 기회로 다시 찾아올 것을 약속드립니다.

감사합니다.


한국토지주택공사 빅데이터센터 드림


※ 별첨 : 차이가 14세대 이하인 48개 단지 - ['C1925', 'C1312', 'C2013', 'C1424', 'C2520', 'C2319', 'C1850', 'C1068', 'C2644', 'C2156', C2453', 'C1910', 'C2139', 'C2508', 'C1695', 'C2556', 'C2362', 'C2568', 'C2245', 'C2549', 'C1584', 'C2298', 'C2225', 'C1218', 'C1970', C1732', 'C2433', 'C1894', 'C1156', 'C2142', 'C2186', 'C2411', 'C1812', 'C1030', 'C1749', 'C1349', 'C2043', 'C1229', 'C2363', 'C1414', C2174', 'C2404', 'C1683', 'C1038', 'C2456', 'C1266', 'C1267', 'C2189']

로그인이 필요합니다
0 / 1000
wolfgang
2021.07.09 18:20

빠른 피드백 너무 감사합니다. 다만 제가 이해한 것이 맞는지 질문이 하나 있습니다.
최종 제출 양식에서 150개 단지코드와  등록차량수를 제출하는 것은 이전과 동일하되, 
지금부터는 제출한 데이터를 평가할 때 150개의 단지코드 중 문제가 되는 3개의 단지는 제외하고 평가하신다는 의미로 이해해도 되는 것인지 여쭙고 싶습니다. 

DACONIO
2021.07.10 12:22

안녕하세요. ADdatascientist님
말씀하신데로 제출은 150단지이나 3개 단지를 제외한 147개 단지에대해서만 평가를 진행합니다.
감사합니다.

lagokun
2021.07.10 00:29

단지코드 C1397 총세대수 370, 공가수 9인걸로 확인되는데 차트 내에서 총세대 379세대인걸로 보이는데 확인 부탁드립니다

lagokun
2021.07.09 21:53

그리고 데이터가 잘못 되었으면 오류를 수정하여 재배포하는 것이 혼란을 줄이는 방법이 아닐까 싶습니다...
토크 게시판도 우연히 보게 된것이라서 이런 의문점이 듭니다.

DACONIO
2021.07.10 12:30

안녕하세요. lagokun님
설명을 돕고자 추가 자료를 만드는 과정에서 오타가 발생하였습니다.
말씀해주신대로 C1397 단지의 총 세대소는 370세대가 맞습니다.
데이터 재배포에 관해서는 여러가지 상황(남은 기간, 기존 작성 코드, 참가자 문제 인식 시점 등)을 고려하였을 때 기존 데이터를 유지하는게 좀더 나은 상황이라 판단되었습니다.
감사합니다.

흔들리는인덕원역
2021.07.09 20:58

오류 설명 자료를 올려주셨지만 작성하신 표에 오류가 있습니다. 
c1397와 C2085의 소개 자료 상 c1397은  총세대수 370세대, C2085는 969세대로 총 1339세대 입니다. 
올려 주신 표에는 공가수가 합산된 379세대로 나옵니다. 
그리고 c1397와 C2085 합을 하면 1348세대지만 표에는 1339로 되어 있습니다. 
진실을 알고 싶습니다. 
--> 마이홈 포털 : https://www.myhome.go.kr/hws/portal/sch/selectRsdtRcritNtcDetailView.do?pblancId=703

그리고 C2431는  427세대가 아니라 472세대 입니다. 
--> https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&ved=2ahUKEwjohLf2-M3xAhVVL6YKHTP_D-YQFnoECAYQAw&url=https://realestate8949.tistory.com/attachment/cfile2.uf@995675405C773A7B07CCB0.pdf&usg=AOvVaw1DFSShgYoY_BuedU66hX6I

자료 작업하신 한국토지주택공사 빅데이터센터 관계자분 여전히 흔들리고 계십니다. 

DACONIO
2021.07.10 12:36

안녕하세요. 흔들리는인덕원역님
설명을 돕기위해 추가 자료를 작성하는 과정에서 C1397의 총세대수 370를 379로, C2431의 총 세대수 427이 472로 오타가 발생하였습니다.
C1397과 C2085의 총 단지수합의 경우 추가 확인하였고 1339세대가 맞습니다.
보다 이해를 돕고자 작성하였던 자료로 인해 혼란드려 죄송합니다.
지적해주신 부분은 수정하였으며 공가수와의 관계는 오타로인해 우연히 발생하였습니다.
감사합니다.

건조한안구는싫어
2021.07.10 16:16

삭제된 댓글입니다

작은거인
2021.07.10 14:39

2번에서 말씀하신 중복된 코드는 둘 중 하나를 제외하기를 권장하시는건가요?
아니면 중복된 코드 모두를 제외하기를 권장하신다는 건가요?

DACONIO
2021.07.12 09:53

안녕하세요. 작은거인님
권장은 두 코드를 모두 제거하는 것입니다.
감사합니다.

psh050401
2021.07.10 18:51

train 데이터 상에서 단지코드 C1397에서의 공가수는 9로 표기되어 있고 C2085에서의 공가수는 0으로 표기되어 있는데 실제 이 단지의 공가 수는 이 두 값을 합한 값으로 취급해야 하나요?
그리고 2번 오류의 경우에 해당되는 아파트 인덱스를 삭제하라고 하셨는데, 삭제하는 대신 이를 본문의 내용대로 수정하여 사용해도 문제가 없나요?

DACONIO
2021.07.12 09:54

안녕하세요. psh050401님
공가수도 합한값으로 취급을 하셔야합니다.
2번 오류의 경우 사용을 안하는 것을 권장 드리나 사용하셔도 문제 없습니다.
감사합니다.

함해보자
2021.07.22 16:13

2번째 오류에 문의드립니다.
'C2431', 'C1649' 단지코드의 공가수는 16+15로 31이라고 생각하면 되는건가요