분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
DAKER! 대회 관련 문의
안녕하세요. 참가자 여러분 대회 관련 자주 묻는 질문들을 모았습니다.
그 외 대회 관련 궁금하신 부분은 댓글로 남겨주세요. 즐거운 코딩 되세요.🧑💻🧑💻
[팀 구성]
Q) 팀 구성 기간이 지났는데 추가로 등록 가능한가요?
Q) 팀 원 초대는 어떻게 하나요?
Q) 최초 1회 제출의 의미가 무엇인가요?
Q) 팀 구성이 안돼요
Q) 팀 탈퇴 후 재구성하고 싶은데 방법이 있나요?
[제출 파일]
Q) 최종 파일은 어떤 걸 제출하면 되나요?
Q) 최종 파일 제출 방식은 어떻게 되나요?
Q) Baseline 코드에서 쓴 라이브러리만 사용해야 하나요?
Q) 제출 결과물을 삭제하고 싶어요
Q) 대회 종료 후에도 결과물 제출이 가능한가요?
Q) 제출 파일 점수 확인은 어떻게 하나요?
Q) 최종 파일 선택 개수는 몇개 인가요?
Q) csv파일 제출 시 에러가 발생합니다.
[리더보드 점수]
Q) 리더보드에서 점수가 삭제된 이유가 뭔가요?
Q) 리더보드 업데이트 시간이 어떻게 되나요?
Q) 동점인 경우 어떻게 하나요?
Q) 리더보드 점수에 문제가 있는 것 같습니다.
Q) Private점수 확인 가능한가요?
Q) Private, Public 차이가 뭔가요?
[2차 평가]
Q) 발표 자료에 어떤 내용이 포함되어야하나요?
Q) 발표 일정은 어떻게 되나요?
[코드공유]
Q) 코드공유 시 외부 데이터 제출 어디에 해야 하나요?
Q) 코드공유에 포함되어야 하는 내용은 어떤 것이 있나요?
[규정]
Q) 코드 검증 과정에서 규정 위반이란 어떤 것 인가요?
Q) GPU로 인해 결과물 재현이 되지 않아도 괜찮나요?
Q) 어떤 경우가 Data leakage에 해당되나요?
안녕하세요 khm님,
문의 주신 내용에 답변드립니다.
그럼 [참조 1]의 대회와는 다르게 test data에 대한 pseudo label과 같은 접근이 불가능 한게 맞을까요?
=> 네. 본 대회에서 test data에 대한 pseudo labeling과 같은 접근 방식은 부정행위로 판단합니다.
그리고 추가적으로 어떠한 공개된 데이터라면, 해외 open data 및 AIHUB의 작물 데이터처럼 open된 data는 data 수와 상관없이 엄청 많은 양의 데이터를 활용해도 되는지 문의드립니다.
=> 네. 법적 제약이 없으며 공개된 사전 학습 모델 및 외부 데이터는 사용 가능합니다. 다만 데이터 사용에 따른 책임 또한 사용자에게 있음을 알려드립니다.
(이와 관련하여 open된 data를 pre-train or train에 이용할 경우 학습시 소요되는 시간등의 요소에 대해 아무런 제약이 없는지 문의 드립니다)
=> 학습 시 소요되는 시간에 대한 제약은 없습니다. 하지만 추론 과정(모델&데이터 로딩 후 데이터 전처리 ~ 추론 ~ 결과 저장)에 소요되는 시간은 중대한 평가 항목이니 이를 유의해주시기 바랍니다.
감사합니다.
삭제된 댓글입니다
안녕하세요 데이콘 관계자님.
제공해주신 본 데이터를 받아 본 결과
csv파일인 시계열 특성의 데이터가 행의 시간 순서가 반대로 되어 있던데, 이렇게 제공된 이유가 있을까요?
사용시 행을 뒤집어서 사용 하는것이 올바른 시간순이 되는게 맞지 않나 해서 질문 드립니다.
안녕하세요 khm 님,
먼저 대회에 관심을 가지고 참여해주셔서 감사합니다.
본 대회에서 제공되는 모든 데이터는 실제 현장에서 수집된 raw 데이터에 개인정보 암호화와 같은 최소한의 가공만을 거친 데이터이며, 데이터에 대한 설명은 [데이터] 탭의 [설명]과 첨부해드린 "설명서"에 모두 담겨있습니다.
따라서 위 경우, 참가자님의 판단 하에 자유롭게 전처리를 진행하여 주시면 됩니다.
데이콘은 대회 운영 및 데이터 이상에 관련된 질문 외에는 답변을 드리지 않고 있습니다.
기타 질문은 토론 페이지를 통해 다른 참가자들과 자유롭게 토론해주시기 바랍니다.
감사합니다.
안녕하세요 데이콘 관계자님.
데이터의 annotation 중 bbox & part x,y,w,h라고 적혀있는 부분의 형태에 대해 문의 드립니다.
x,y,w,h라고 기재되어 있는데, 이게 xmin,ymin,w,h의 형태인가요?
데이터를 보면 x<w 일 때도 있고 x>w 가 있는 경우도 있어서 문의 드립니다.
안녕하세요 khm님,
데이터 설명 파일을 참고해주시기 바랍니다.
감사합니다.
혹시 학습시에 multi-gpu 사용해도 나중에 검증하는부분에서 문제 없을까요?
안녕하세요 틸레이(TLRY) 화이팅 님,
네, 학습시에 multi-gpu 사용하셔도 괜찮습니다.
감사합니다.
삭제된 댓글입니다
안녕하세요! Train 및 Test Data label에 관해서 질문이 있어서 댓글로 남깁니다.
예를 들어 train data에는 "파프리카잘록병" 혹은 "딸기잿빛곰팡이병" 에 관한 label은 없는데, 실제로 test data에서는 해당 label이 존재할 수 있는지 여부가 궁금합니다. 위의 예시에 대해서 맞다, 아니다에 대한 정답은 필요 없지만 위와 같은 경우가 존재할 수 있는지 궁금합니다.
train label에서 제시된 (작물 + 질병) 조합은 있으나 (질병 진행정도)가 다른 경우는 충분히 있을 수 있다고 생각하지만,
위와 같이 한번도 본적 없는 (질병)이 test dataset에 label로 매겨져 있다면 외부 데이터를 사용할 수 밖에 없을 것 같은데요,
그런데 외부데이터에는 48시간 동안의 환경 변화에 대한 데이터가 없으므로 데이콘에서 제시한 "환경데이터 사용여부"를 충족하고 싶어도 해당 데이터는 환경 데이터 없이 사용할 수 밖에 없는 아이러니한 상황이 발생합니다.
해당 경우에 대해서 조금 더 명확하게 하고 갔으면 하는 바람에서 글 남깁니다. 감사합니다.
저도 이부분 매우 궁금합니다. 실제로 이런경우가 있으면 문제자체가 잘못된것 같아보이는데 확실히 되었으면 좋겠습니다.
외부데이터를 구할려면 구할수는 있고, 또, 제공된 업체가 이 대회를 진행하는 업체와 동일한것으로 보아서 외부데이터를 사용하는경우 Data Leakage가 될가능성이 높아보여서 외부데이터를 사용하는게 망설여지기도 하네요
저도 궁금했던 부분입니다. mignonDev님이 예시를 정확하게 들어주신 것 같네요. 특히 Baseline 코드에는 label_encoder가 총 111가지로 되어있으나, 실제로 학습에 존재하는 class는 25개입니다.
안녕하세요 mignonDev 님,
본 대회의 test data에 존재하는 label은 모두 train data 에도 존재합니다.
따라서 "외부 데이터를 사용해야만 해결할 수 있는 문제"는 아닙니다.
감사합니다.
궁금한점이 train data에 있는 레이블은 test에 있는건 알겠는데, train data에 없는 레이블이 test data에 있는지 궁금합니다..
즉 리스크 정도같은건 서로 다를것 같긴한데.. 맞나요?
안녕하세요 틸레이(TLRY) 화이팅 님,
본 대회의 test data에 존재하는 label은 모두 train data 에도 존재합니다.
즉, train data에 없는 레이블은 test data에도 없습니다.
감사합니다.
안녕하세요 운영자님
혹시 토크에 글쓴 고추레이블관련에 대해서 답변 해주실수 있을까요?
실제로 트레인셋에서는 흰가루병 관련된 레이블이 없는데, 테스트셋은 찾아보니깐 흰가루병 걸린 이미지로 추정되는것들이 있더라구요 ...
구글에서 찾아보니깐 아래 질병들과는 전혀 다르게 생겼고, 고추탄저병과도 전혀 다르게 생겼습니다...
"5_b6_1" : "고추_다량원소결필(N)_초기",
"5_b7_1" : "고추_다량원소결필(P)_초기",
"5_b8_1" : "고추_다량원소결필(K)_초기",
안녕하세요 틸레이(TLRY) 화이팅 님,
먼저 본 대회는 완벽히 정제된 데이터가 아닌 raw 데이터를 활용하는 대회이기 때문에
이상치, 잘못된 레이블, train에는 존재하지 않는 레이블 등의 예외 사항들이 존재할 수 있습니다.
이러한 예외의 전처리는 참가자님들의 재량이며, 본 대회에서 평가하고자 하는 사항들 중 하나입니다.
다만 한가지 확실하게 말씀드릴 수 있는 것은 본 대회의 train data에 없는 레이블은 test data에도 없다는 점입니다.
대회를 운영하는 입장에서 테스트 데이터에 대한 어떠한 언급도 조심스러울 수 밖에 없음을 양해해주시기 바랍니다.
데이터에 관련된 추가적인 논의는 토크 게시판을 통해 다른 유저분들과 나눠주시기 바랍니다.
감사합니다.
안녕하세요.
이력서 제출 방법에 대한 설명을 찾지 못해 질문드립니다.
혹시 제출방법이나 일자에 대해 알 수 있을까요?
안녕하세요 ptj0225 님,
이력서의 제출 방법이나 일자, 제출 대상자 등에 대한 사항은 대회 1차 평가가 종료된 후에 자세한 안내가 진행될 예정입니다.
감사합니다.
안녕하세요.
팀 병합 관련 문의드립니다.
현재 같이 대회를 준비하는 팀원과 다른 팀 구성을 했습니다. 제가 구성한 팀 이름으로는 코드 제출을 하지 않았습니다.
어떻게 처리해야할까요?
안녕하세요 종이호랑이님,
조금 더 자세히 상황을 설명해주시면 해결을 도와드리겠습니다.
감사합니다.
현재 두 명의 팀원이 각각 팀을 개설한 상태입니다. 팀을 한쪽으로 합치고 싶습니다.
종이호랑이 님의 상황은 다음 2 가지 상황 중 하나일 것으로 추측됩니다.
1. "1인 팀 + 1인 팀" 혹은 "다인 팀에 1인 팀이 들어가는" 경우: 이 경우에는 문제 없이 팀을 구성할 수 있습니다.
2. 다인 팀에서 한 명이 빠져 나와 다른 참가자와 새로운 팀을 구성하고자 하는 경우: 이 경우에는 구성이 불가능 합니다.
이미 구성된 팀을 탈퇴하는 순간 해당 참가자는 대회에 참가할 수 없어지기 때문입니다.
(단, 다인 팀이 팀 구성 이후 한번도 제출을 하지 않은 경우는 예외로 합니다.)
이는 1등 팀이 대회 종료 직전 팀을 해체한 뒤, 대회에 개별 참가하여 수상을 독차지하는 것과 같은 부정행위를 방지하기 위한 방침이오니 양해부탁드립니다.
더 자세한 상황 파악을 위해서는 각 팀의 구성 인원, 합치려는 팀의 제출 여부 등의 추가 정보가 필요합니다.
감사합니다.
1인팀 + 1인팀입니다
한 쪽팀에서만 제출 했습니다.
팀 구성 시 각 팀원은 적어도 1회 제출 기록이 있어야 합니다.
본 페이지 본문 내용 중 [팀 구성] 부분을 참고해주시기 바랍니다.
넵 감사합니다
안녕하세요. 대회 규정에서
* label encoding, one-hot encoding 시 test 데이터 셋 활용
* data scaling 적용 시 test 데이터 셋 활용
* test 데이터 셋의 결측치 처리 시 test 데이터 셋의 통계 값 활용
* 위 예시 외에도 test 데이터 셋이 모델 학습에 활용되는 경우에 Data leakage에 해당됨.
라고 나와있는데 training 시에 train 데이터만을 활용하여 scaling을 적용하고 (모델 학습 시에는 test 데이터 포함하지 않음)
inference 시에 test 데이터만을 활용하여 scaling을 적용하는건 data leakage가 아닌 것 맞나요?
규정을 명확히 지키고자 문의드립니다.
안녕하세요 가디님
문의 주신 내용, "inference 시에 test 데이터를 활용하여 scaling을 적용"은 data leakage 부정행위 입니다.
관련 규정: * data scaling 적용 시 test 데이터 셋 활용
test 데이터는 하나 하나가 개별 관측된 독립적인 데이터로 생각해주시기 바랍니다.
감사합니다.
답변 감사합니다. 그런데 이미지 데이터에 대한 scaling이 아니라 환경변수 데이터에 대한 min max scaling를 하려고 하는 것인데 train, test 환경변수 데이터 각각에 대해 min max scaling을 진행할 경우 이것도 data leakage인가요? 데이콘 베이스라인 코드에서도 환경변수 데이터에 대한 min max scaling 코드가 포함되어 있어서 질문드립니다.
환경변수 또한 마찬가지로, test 데이터를 활용하여 scaling을 한다면 data leakage에 해당됩니다.
베이스라인 코드는 train 데이터만을 활용하여 scaler를 제작한 뒤, 이를 이용해서 test 데이터를 scaling하였기에 data leakage 가 아닙니다.
(test 데이터를 활용하여 scaling = scaler 제작에 test 데이터 사용 = data leakage 부정행위)
(train 데이터를 활용하여 scaling = scaler 제작에 train 데이터 사용 = 부정행위 아님)
감사합니다.
답변 감사드립니다! 그리고 이미지 데이터에 대한 TTA (test time augmentation)을 진행할 경우 테스트 데이터의 통계를 사용하는 것이 아니라면 data leakage가 아닌지 문의드립니다. 질문이 좀 많네요 죄송합니다 ㅠ
네, TTA를 사용하는 경우에도 테스트 데이터의 통계치를 사용하는 경우가 아니라면 data leakage가 아닙니다.
감사합니다.
답변 감사드립니다. 좋은 저녁 보내세요!
안녕하세요. 대회 최종 점수 산출과 관련된 문의드립니다.
1차로는 private 랭킹 10위까지 선별하고
2차로 점수 산정을 통해서 최종 순위를 선별한다고 설명되어 있었습니다.
다만,
리더보드 Private 점수 : 30
동작 속도 : 15
이렇게 나뉘어 있는데, 이게 전체 점수에서 비율이라는 것은 이해했습니다만, 실질적으로 어떻게 산정되는지 문의드립니다.
예를 들어, k-fold를 통해서 5개의 모델 결과를 앙상블한 결과 등수가 2등 올릴 수 있으나, 추론 속도는 당연히 5배로 느려질텐데, 최종적으로 속도가 느려지는 것을 감안하더라도 앙상블한 결과로 산정되는 점수가 높아지는지, 아니면 추론 속도의 패널티가 커서 결과적으로 최종 점수가 하락하는지 감을 잡을 수가 없습니다.
이에 대한 설명 부탁드립니다.
감사합니다.
안녕하세요 재색님
2차 점수 산정 과정에서는 상대적인 점수(평가 분야별 랭킹)와 절대적인 점수(F1-score 혹은 동작 시간)를 함께 사용하여 계산합니다.
리더보드 Private 점수를 예로 들면, 리더보드 1위에게는 30점이 부여되고, 1위의 절대적 점수를 기준으로 이하 순위의 점수를 계산합니다.
계산식: (n위의 절대적 점수 / 1위의 절대적 점수) * 30
동작 속도 또한 같은 방식으로, 동작 속도 부문 1위에게는 15점이 부여되고, 1위의 동작 시간을 바탕으로 이하 순위의 점수를 계산합니다.
이처럼 각 분야별로 상대적인 점수와 절대적인 점수가 같이 사용되기 때문에,
정확도와 속도 중 어느 것이 더 점수에 큰 영향을 미칠지는 참가자님들께서 직접 판단해주셔야 합니다.
감사합니다.
네, 알겠습니다.
답변 감사합니다.
안녕하세요. 위의 질문에 대해 추가 질문드립니다.
"k-fold를 통해서 5개의 모델 결과를 앙상블한 결과"일 때 추론 시에 input이 5개의 모델을 통과하는 걸로 간주되나요?
안녕하세요 햄비님
동작시간은 추론 코드의 "모델&데이터 로딩 후 데이터 전처리 ~ 추론 ~ 결과 저장 시간"을 측정합니다.
감사합니다.
답변 감사드립니다. 혹시 추론 코드라 함은 test data 1개의 추론 시간인지, 아니면 주어진 모든 test data의 추론 시간에 대해인지 질문드립니다.
추론 코드란 주어진 모든 test data에 대해 추론하여 완전한 결과물을 생성하는 코드를 말합니다. ([대회 안내] - [규칙] - [코드 평가 제출 양식])
즉, 주어진 모든 test data의 추론 시간 총합으로 측정하게 됩니다.
삭제된 댓글입니다
안녕하세요,
코드 검증 환경과 관련된 문의를 드립니다. 대회 안내를 보면
NVIDIA GeForce RTX 3090 / Ubuntu 18.04.6 LTS (64bit)
Tesla V100-PCIE-32GB / Ubuntu 16.04.6 LTS (64bit)
Colab GPU / Linux-5.4.104+-x86_64-with-Ubuntu-18.04-bionic
위와 같은 3가지 경우의 수가 기재되어 있습니다만, NVIDIA GeForce RTX 3090는 메모리가 24GB, Tesla V100-PCIE-32GB는 메모리가 32GB로 차이가 상당합니다.
이때 검증은 어디서 하게 되는건가요? 추론속도를 극대화 하기 위해 추론 할 때도 Batch 단위로 하려는데, 어디서 하느냐에 따라 결과차이가 클 것 같고, 제출하는 코드에 default 값을 다르게 주어야 할 듯 합니다.
마찬가지로, 모델 훈련에 대한 검증도 위의 제약에서 하게 된다면 더 큰 문제일 듯 합니다. Tesla V100-PCIE-32GB에서 훈련 가능한 batch size가 NVIDIA GeForce RTX 3090에서는 가능하지 않게 되니까요. 이에 대한 답변 부탁드립니다.
더불어 검증 환경에서의 CPU에 대한 질문도 드립니다. 전처리 속도를 극대화 하기 위해 multi process를 사용하고 있는데, CPU의 코어 개수는 몇 개인지, 전부 활용 가능한지 등이 궁금합니다. 답변부탁드립니다.
감사합니다.
안녕하세요 재색님,
문의에 대해 답변 드립니다.
1. 코드 검증 환경은 NVIDIA GeForce RTX 3090 을 기본 환경으로 하되, 만약 그 이상의 처리 능력이 필요한 경우 Tesla V100-PCIE-32GB를 사용합니다.
모델 훈련에 대한 검증 과정에서는 NVIDIA GeForce RTX 3090을 4 장까지 사용 가능합니다.
2. 검증 환경의 CPU는 Intel(R) Core(TM) i9-10920X 이며, 12개의 코어를 활용 가능합니다.
좋은 의견 주셔서 감사합니다. 반영하도록 하겠습니다.
감사합니다.
빠른 답변에 감사드립니다.
답변 주신 것에 좀더 상세히 여쭙고자 합니다.
1. 모델 훈련에 대한 검증 과정에서는 NVIDIA GeForce RTX 3090을 4 장까지 사용 가능합니다. -> 이것은 데이콘에서 모델 훈련을 진행하여 검증하는 것을 말하는 것이 맞는지요? 그러면 약 90GB의 메모리를 사용한다고 이해하면 될까요?
2. 이번 대회는 동작 속도의 이슈도 중요한데, 추론 과정에서는 NVIDIA GeForce RTX 3090 또는 Tesla V100-PCIE-32GB을 단독으로만 사용한다고 생각하면 될까요? 만약 그렇다면 단순 batch size의 문제 뿐만 아니라, GPU 모델에 따른 속도 차이도 있을 걸로 생각됩니다. 이를 통일해서 검증해야 할 것 같습니다.
답변 부탁드립니다.
감사합니다.
1. 데이콘에서 모델 훈련을 진행하여 검증하는 것이 맞으며, 분산 처리 시 약 90GB까지 이용 가능합니다.
2. 이번 대회의 목적 상, 추론 검증 과정에서는 GPU 1장을 단독으로만 사용합니다.
만약 참가자별로 다른 GPU 모델을 사용해야 할 경우에는 모델에 따른 속도 차이도 고려하여 평가하도록 하겠습니다.
좋은 의견 감사합니다.
네 알겠습니다.
답변 감사합니다.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 데이콘 관계자님.
이전 대회였던,
[참조 1]
" 작물 병해 분류 AI 경진대회
NIA | 팜한농 | 농작물 | vision | macro-f1 "
대회를 보았습니다.
이 대회와 유사한 문제이지만, 위의 문제([참조 1])와는 다르게 본 대회에서는
테스트 데이터는 추론 과정에서만 사용 가능하며, 아래와 같은 경우는 부정행위(Data Leakage)로 판단합니다.
라고 기재되어 있습니다.
그럼 [참조 1]의 대회와는 다르게 test data에 대한 pseudo label과 같은 접근이 불가능 한게 맞을까요?
그리고 추가적으로 어떠한 공개된 데이터라면, 해외 open data 및 AIHUB의 작물 데이터처럼 open된 data는 data 수와 상관없이 엄청 많은 양의 데이터를 활용해도 되는지 문의드립니다. (이와 관련하여 open된 data를 pre-train or train에 이용할 경우 학습시 소요되는 시간등의 요소에 대해 아무런 제약이 없는지 문의 드립니다)
감사합니다.