대구 교통사고 피해 예측 AI 경진대회

알고리즘 | 정형 | 회귀 | 교통 | RMSLE | 정성평가

  • moneyIcon 상금 : 1,000만원
  • 2,227명 마감

 

외부데이터 채널 추가 공지 및 유의사항 재공지 (11.30 15:34 설명추가)

2023.11.20 16:32 1,566 조회

안녕하세요, 데이콘입니다.

주최측 요청사항에 따라 외부데이터 관련 규칙의 유의사항을 다시 공지드리며,

아울러 공공데이터포털이 외부데이터 채널로 추가됨을 안내드립니다.

전체 규칙은 링크를 통해 확인 가능합니다.


2023.11.30 15:34)

데이터 구축 기준에 대한 설명이 모호하여 설명을 추가합니다.


유의사항 :

  1. 대구 빅데이터활용센터에서 제공하는 전체 데이터셋을 활용하기 위해서는 직접 센터를 방문하여 사내망 사용
  2. 규칙상 제공된 3곳의 외부데이터 채널을 통해서만 외부데이터 수집 가능 (주최측 요청 사항)
  3. 코드 제출시에도 해당 링크 기입 필수
  4. 2021.12.31 23:59:59 이후 구축된 데이터는 활용할 수 없음
  5. 해당 규정을 위반할 경우 Data Leakage
  6. 공공데이터포털이 활용 가능한 외부데이터 채널로 추가됨 (2023.11.20 추가)


변경 전 규칙 :

4. 외부 데이터 및 사전 학습 모델

  • 대구 빅데이터활용센터한국자동차연구원 자동차데이터 포털에서 제공하는 외부 데이터 사용 가능
  • 단, 해당 출처 이외의 출처를 가지는 외부데이터는 사용 금지
  • 또한 2021.12.31 23:59:59 이후 구축된 데이터 역시 활용할 수 없음
  • 사용에 법적 제한이 없으며 논문으로 공개된 베이스의 사전 학습 모델(Pre-trained Model) 사용 가능


변경 후 규칙 :

4. 외부 데이터 및 사전 학습 모델

  • 사용 가능한 외부데이터 채널
  • 대구 빅데이터활용센터 (전체 데이터셋 활용을 위해서는 직접 대구 빅데이터활용센터 방문)
  • 한국자동차연구원 자동차데이터 포털
  • 공공데이터포털 (2023.11.20 추가)
  • 단, 해당 출처 이외의 출처를 가지는 외부데이터는 사용 금지
  • 대구 빅데이터활용센터에서 제공하는 전체 데이터셋을 활용하기 위해서는 직접 센터를 방문하여 사내망 사용
  • 또한 2021.12.31 23:59:59 이후 구축된 데이터 역시 활용할 수 없음
  • 이는 데이터(전체 데이터 파일이 아닌 파일 내부의 한 개의 행 단위) 자체가 생성된 시간을 기준으로 판단 (2023.11.30 15:34 설명추가)
  • 사용에 법적 제한이 없으며 논문으로 공개된 베이스의 사전 학습 모델(Pre-trained Model) 사용 가능
  • 참가자 본인이 외부 데이터로 사전 학습 모델을 추가 학습시켜 사용하는 것은 불가능


감사합니다.

로그인이 필요합니다
0 / 1000
Redix6
2023.11.20 18:56

구축된 데이터의 시점의 정확한 정의가 데이터 자체의 시점인가요 아니면 정리가 다 된 다음 업로드가 된 시점인가요?
후자라면, 2021년 업로드 후 2022년 수정이면 사용 불가인가요?

DACON.SeungYoon
2023.11.21 10:11

안녕하세요, Redix6 님
데이터 자체의 시점입니다. 
다만 간혹 데이터 자체가 2022년도 전에 해당하는 데이터여도, 
2022년 이후의 정보를 포함하고 있는 경우가 있습니다.
해당 정보를 활용할 경우 Data Leakage로 판단합니다.
감사합니다. 

상준.
2023.11.21 19:04

데이터 자체의 시점이 2022년 전에 해당하는 데이터가 사용하는 것이라면,
데이터 구축 년도가 2021년이지만 수정 년도가 2023년인 데이터인 경우에,
전체 데이터 중 2022년 전에 해당하는 데이터는 사용 가능하다는 말씀이실까요?
예를 들어, 데이터는 2018~2023년도 데이터를 다 포함하고 있지만 여기서 2021년 까지의 데이터만 가져와도 되는지 묻고 싶습니다.

DACON.SeungYoon
2023.11.23 16:30

안녕하세요, 상준. 님
문의주신 사항에 대해서는 따로 올린 게시글에 답변 드렸습니다.
감사합니다. 

걍무
2023.11.21 13:01

공공데이터포털에 URL을 통해서 공개되어있는 데이터를 활용해도 괜찮나요? 데이터 구축시점은 2021년 12월 31일 이전입니다.

DACON.SeungYoon
2023.11.23 16:31

안녕하세요, 걍무 님 
말씀주신 사항만으로는 구체적인 판단이 어렵습니다.
메일로 해당 링크(공공데이터포털 링크)를 전달해주실 수 있으신가요?
감사합니다. 

꼬마자객
2023.11.23 23:58

대구 빅데이터 마트 데이터 [폴더]에 올라와 있는 구분 7-2 보행노인사고 다발지역 데이터를 학습에 사용해도 되는건가요? 제공기관이 '교통사고정보 개방시스템'이라 적혀 있는데 직접 다운받은게 아닌 제공데이터라 애매한거 같아 질문드립니다.

DACON.SeungYoon
2023.11.27 10:14

안녕하세요, 꼬마자객 님 
test 데이터를 제외한 제공데이터는 학습에 자유롭게 활용하실 수 있습니다. 
감사합니다. 

rossoneri
2023.11.26 12:17

외부데이터를 사용할 때 타지역 데이터는 제한이 없나요???

DACON.SeungYoon
2023.11.27 10:15

안녕하세요, rossoneri 님
타지역 데이터도 수집 가능하십니다. 
감사합니다. 

아기황제펭귄
2023.12.01 13:20

안녕하세요. 데이터 사용 기준에서 명확하지 않은 부분이 있어 문의드립니다.

질문1)
> 또한 2021.12.31 23:59:59 이후 구축된 데이터 역시 활용할 수 없음
> 이는 데이터(전체 데이터 파일이 아닌 파일 내부의 한 개의 행 단위) 자체가 생성된 시간을 기준으로 판단 (2023.11.30 15:34 설명추가)

여기서 '생성된 시간'이라는 것은 데이터가 외부에 공개된 시점인가요? 
아니면 해당 데이터의 명세가 발생한 시점( 예 - 사고 발생 시점)인가요?


질문2)
공공데이터포털에서 외부 링크로 연결되어 있는 데이터 (예 - https://www.data.go.kr/data/15075668/fileData.do#layer_data_infomation) 와 같은 데이터들은 사용이 불가능한가요? 아래 다른분께서 질문해주셨지만 케이스 바이 케이스인지, 아니면 명확한 기준이 존재하는지 여쭙기 위해 문의드립니다.

감사합니다.

DACON.SeungYoon
2023.12.04 11:26

안녕하세요, Josh Hwang 님
문의사항에 대한 답변을 드립니다: 
1) 이 경우 데이터가 외부에 공개된 시점을 기준으로 삼고 있습니다. 
주신 예시에 맞춰 설명드리자면, 설령 사고 발생 시점이 2021년이여도 해당 데이터가 2022년도에 공개되었다면 사용하실 수 없습니다. 
이는 해당 데이터에 2022년도의 정보가 포함되었을 수 있기 때문입니다. 
2) 이렇게 외부 링크로 연결되어 있는 데이터는 출처를 '공인된 3곳의 외부데이터 채널'로 보기 때문에 활용 가능하지만, 제약사항이 존재합니다. 
우선 해당 외부데이터 채널에서 명시하고 있는 범위에서 데이터를 수집하셔야 하며, 
2022.01.01 00:00부터의 데이터는 활용하실 수 없습니다. 
따라서 케이스별로 활용 가능한 범위가 달라지고, 참가자분들께서 사용하시고자 하는 전략이 유출될 수 있기에
해당 문의들은 가급적 메일로 받고 있습니다. 
감사합니다. 

min_lance0
2023.12.04 23:59

외부데이터 관련해서 문의드리고 싶은데 어디로 메일을 보내야할까요? 메일주소를 찾기 어려워 댓글 남깁니다!

DACON.SeungYoon
2023.12.05 09:31

안녕하세요, min_lance0 님
dacon@dacon.io로 문의 부탁드립니다. 
감사합니다. 

욱프로
2023.12.05 12:04

빅데이터 마트의 데이터가 gpkg로 되어 있는데요, 일부 파일에 한글이 있는 경우 encoding문제로 geopandas에서 read_file이 안됩니다.
이전 질문에도 이런 내용이 있던 데요.해결 되었다는 글은 못 본 것 같습니다.
혹시 geopandas등 python환경 버전을 맞춰야 하는 것일까요?
확인 부탁 드립니다.

DACON.SeungYoon
2023.12.06 15:41

안녕하세요, 욱프로 님
해당 사항에 대해서는 메일로 문의 부탁드립니다.
감사합니다. 

이전 글
automl
대회 - 대구 교통사고 피해 예측 AI 경진대회
좋아요 9
조회 1,502
댓글 1
일 년 전
현재 글
외부데이터 채널 추가 공지 및 유의사항 재공지 (11.30 15:34 설명추가)
대회 - 대구 교통사고 피해 예측 AI 경진대회
좋아요 0
조회 1,566
댓글 16
일 년 전
다음 글
한 끗 차이
대회 - 대구 교통사고 피해 예측 AI 경진대회
좋아요 12
조회 1,020
댓글 1
일 년 전