대구 교통사고 피해 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | RMSLE | 정성평가

  • moneyIcon Prize : 1,000만원
  • 2,227명 마감

 

더 공정한 대회를 위한 외부데이터 공유

2023.11.16 22:10 1,812 Views


공공데이터 포털에서 도로교통공단이 제공하는 사망자가 있는 교통사고 데이터를 확인할 수 있습니다.(사망자수>=1)

[웹사이트 바로가기]


train기간에 해당하는 2019년~2021년과 test 기간에 해당하는 2022년까지의 사고 데이터가 공개되어 있습니다.

test 데이터에서 ACCIDENT_40126에 해당하는 2022년 1월 19일 5시 사고에서는 사망자 1명이 발생했습니다.

test 데이터에서 ACCIDENT_40152에 해당하는 2022년 1월 20일 6시 사고에서는 사망자 1명과 중상자 1명이 발생했습니다.


모든 사고는 아니지만 사망자 발생 사고 외부 데이터를 활용하면, 사망자수를 정확하게 확인할 수 있습니다.

위의 데이터에 존재하지 않는 사고는 사망자수가 0이라는 것을 의미하기도 합니다.


대회 초반이니 규칙을 변경할 수도 있고, 규칙을 변경하지 않더라도 모든 참가자가 동일한 정보를 갖고 시작하는 것이 공정합니다.

함께 고민해보면 좋겠습니다.


그리고 한가지 아쉬운 점이 있네요!

위의 사망사고 데이터에서는 위도, 경도를 함께 제공해서 정확한 지점 파악이 가능합니다.

아마도 원본 데이터에서는 동일하게 위경도가 있었을 것 같은데요, 함께 제공되었더라면 더 다양한 전략이 나올 수 있었을 것 같네요:)



로그인이 필요합니다
0 / 1000
지운지운
2023.11.16 23:38

좋은정보 감사합니다. 혹시 아래 대회 규칙에 위반되는 데이터로 작용되지는 않을까요??

4. 외부 데이터 및 사전 학습 모델
대구 빅데이터활용센터와 한국자동차연구원 자동차데이터 포털에서 제공하는 외부 데이터 사용 가능
단, 해당 출처 이외의 출처를 가지는 외부데이터는 사용 금지
또한 2021.12.31 23:59:59 이후 구축된 데이터 역시 활용할 수 없음

Statistics
2023.11.16 23:44

안녕하세요:)
직접적으로 위의 데이터를 활용하면 규칙에 위배되지만, 얼마든지 우회해서 정보를 활용할 수 있습니다.
예를 들면, test 기간인 2022년의 사망사고(사망자>=1)가 타 사고와 어떻게 다른지, 어떤 변수가 주효한 차이를 만들어내는지 확인 가능합니다.
그럼 "파생변수 생성"이라는 명목으로 해당 정보에 관련된 변수들을 생성해서 성능 개선을 유도할 수 있습니다.
그러나 생성된 파생변수만으로는 위의 데이터를 활용했는지 그 여부를 확인할 방법은 없구요.

NN_is_all_you_need
2023.11.17 17:12

"우회해서 정보를 활용하고 그 여부를 확인할 방법은 없다" 라고 말씀해주시는 게 약간 오해의 소지가 있을 것 같은데요...
대회에서 지정한 규칙 외의 외부 데이터를 공유해주신 건데.. 이것을 "대회 초반이니 규칙을 변경할 수도 있고, 규칙을 변경하지 않더라도 모든 참가자가 동일한 정보를 갖고 시작하는 것이 공정합니다." 라고 해주신 것도 오해의 소지가 있을 법 합니다..
부정행위 하는 방법을 공유해주신 것이 목적인가요?

Statistics
2023.11.17 17:35

불필요하게 꼬아서 생각하시네요.

주식시장에서 "이러이러한 미공개된 정보를 활용해 소수가  이득을 볼 수 있다"고 제보를 했는데, 미공개된 정보로 투자하라고 유도를 했다고 할 수 있을까요?

대회운영주체인 데이콘 관계자가 보라고 쓴 글입니다. 데이터를 공개해서 일부러 활용 가치를 떨어뜨린거구요.

부정행위를 하라는 것이 아니라 부정행위 가능성을 공론화하고 대회 주최측으로 하여금 규칙 변경을 유도하는 글입니다. 

넓게 멀리 보시죠.

NN_is_all_you_need
2023.11.17 17:56

아 네 멀리 보겠습니다!

비회원
2023.11.17 17:58

Statistics 님의 말에 적극 동의합니다. H*에서 주최한 대회에서도 data leakag에 대한 사고가 있었기 때문에 더더욱 주의해야 한다고 생각합니다. 데이터 분석 뿐만 아니라 해당 일에 대한 바라보는 시각과 통찰력에 감탄했네요

샤아의역습
2023.11.22 17:23

H*에서 주최한 대회에서의 short-cut 활용 건과는 좀 다른 성격인 것 같아요,,, 본 건은 ECLO 10이 넘는 건에 대한 세분화 구분이 성능에 크게 영향을 미친다는 내용으로 이해되는데요;; H*에서의 유가 정보 건과는 서로 결이 다른 건으로 보이네요

비회원
2023.11.23 09:00

제가 말하고자 하는 바는 data leakage 그 자체가 아니라 해당 사건의 결과는 리더보드 초기화였고 많은 피해를 초래했습니다. 분명 그 전부터 유가 데이터에 대한 정보를 파악한 사람도 분명히 있었을 것이고요... 그래서 투명하게 공개하는 것인 Statistics님 의견에 동의하는거죠

쥬혁이
2023.11.17 00:34

조심스럽지만 데이터 리키지라고 생각됩니다..!

basslibrary
2023.11.20 13:24

규정에 2021년 12월 31일 이후 자료는 사용할 수 없도록 되어 있습니다.
자료 오픈시점이 7월쯤이므로 21년이 아니라, 20년 데이터 자료까지만 사용이 가능하겠군요.
즉, 21년과 22년 데이터는 사용하면 리키지에 해당되네요.
규정에 따라, 20년까지의 데이터를 활용하는 데는 문제가 없지 않나 생각됩니다.