제2회 KRX 주식 투자 알고리즘 경진대회

알고리즘 | 정형 | 시계열 | 포트폴리오 구성 | 금융 | 샤프 지수

  • moneyIcon Prize : 5,000 만원
  • 1,324명 마감
Closed

 

Public 기간 중 특정점수 이상인 경우 소명하지 못하면 실격이라는 규정에 대해 의논할 것이 있습니다.

2023.07.19 19:08 2,034 Views

참가자 분들의 도움을 받고싶어 작성하였습니다.


Public 기간의 경우 일종의 연습 기간으로, Public 리더보드 순위는 Private 순위에 어떤 영향도 미치지 못합니다.

또한 규정상 명확하게 Private 데이터를 사용하면 미래편향성으로 판단한다고 적혀 있습니다.


저는 테스트를 하기위해 미래편향성이 포함되어 과최적화된 submission_과최적화.csv를 제출하였고 어떤 대회상 이익을 볼 의도는 없었고 볼 수도 없습니다.

그로인해 퍼블릭 기간 중 특정점수 이상으로 결과를 제출하여 미래편향성이 있는지 소명을 해야하고 소명을 하지 못하면 대회전부에서 실격처리된다고 대회측에서 연락을 받았습니다.


사실상 제출을 단 한번이라도 했다면(제출을 하면 자동으로 최종결과물 선택이 되어 리더보드에 뜨기 때문) 위의 상황을 맞게 되는것입니다.

작성되어있는 규정에서는 평가에서 제외된다고 적혀있습니다만 평가가 퍼블릭평가인지, 대회전체인지 대회내부 관계자가 아니면 알 수 없는 애매한 말로 작성되어 있습니다.


또한, 제 경우 외에도 train.csv 외의 공공데이터를 사용하면 거의 대부분은 퍼블릭 기간 내에는 미래편향성이 있을수 밖에 없고 (수정주가, 수정 재무제표 등등 너무 많습니다.)

그걸 사용해서 데이터를 한번이라도 제출했으면 사실상 치팅에 해당되는건데 대회측에서는 내부적으로만 알고있는 특정점수위의 결과들만 골라서 치팅판정 및 실격처리를 하고 있습니다.

경고성 알림이나 최종결과물에 대해서 선택할 수 있는 권리도 없이 말이죠.


그리고 퍼블릭 기간은 연습기간으로 프라이빗 기간의 결과에 어떠한 영향도 미치지 않고,

애초에 프라이빗대회는 미래편향성이 있을수 없도록 설계되어있지 않습니까.


퍼블릭 참가자의 분위기를 흐린다는 명목으로 리더보드 삭제를 하실수 있다고 생각은 되나,

미래편향이 있을 수 없는 프라이빗에는 참여할 수 있게 해주셔야 하지 않나 싶습니다.


극단적으로 따진다면 연습기간인 퍼블릭기간에 제출한 모든 사람들에 대해서 코드 소명요청을 해서 미래편향성이 있는지 확인하여 실격처리를 하는것이 공정하지 않나 싶습니다.


대회측에 묻고싶은점은 규정에 Private 데이터셋을 사용한것을 예견편향성으로 본다고 정확히 명시해 놓았고,

Public 점수가 높다는 것으로는 대회참여자는 아무런 이득을 볼 수 없는점을 감안하여 주셔야 하는것이 아닌가 합니다.


그리고 아무 영양가 없이 실격위험만 있는 Public에는 결과물을 제출할 이유가 전혀 없지 않을까 싶고 그것이 대회 의도상 맞는건지는 의문이 듭니다.


참가자 분들의 고견 부탁드립니다.

로그인이 필요합니다
0 / 1000
보글
2023.07.19 19:19

[규정]

Q) 코드 검증 과정에서 규정 위반이란 어떤 것 인가요?

Private 데이터를 모델 학습 시 활용하거나, 허가되지 않은 외부 데이터 및 사전 학습 모델 사용 시 규정 위반 처리될 수 있습니다.

Q) 어떤 경우가 예견편향성에 해당되나요?

 Private 데이터셋('23년 7월 31일부터 8월 21일까지의 데이터)은 기본적으로 '아예 볼 수 없다' 라는 가정 하에 진행해야 합니다.
그렇기에 해당 데이터를 이용해서 예측을 진행할 경우 예견편향성에 해당합니다.

CandleMaster
2023.07.19 19:47

예측에 사용된 모델과 코드를 제출하고 소명까지 전부 하셨는데 실격이 되신건가요?
만약 의도치 않은 부정 행위가 있었다면, 해당 경위를 충분히 설명하고 대회 주최측과 합의 보시길 바랍니다.

다만 말씀하신 내용 중에
" 애초에 train.csv 외의 공공데이터를 사용하면 거의 대부분은 퍼블릭 기간 내에는 미래편향성이 있을수 밖에 없고 (수정주가, 수정 재무제표 등등 너무 많습니다.)"
여기서 "공공 데이터를 활용하면 미래편향이 생길 수 밖에 없다"는 것은 이해가 잘 되지 않습니다.
조금 더 자세한 설명을 들을 수 있을까요?

보글
2023.07.19 20:08

단순히 테스트용 과최적화 데이터셋이었는데
퍼블릭 순위는 프라이빗 순위에 영향이 없는줄 알고 굳이 제출하지 않았습니다.

본문에서는 지금 계산된 수정주가 사용, 5월 31일 이전의 발표 재무제표가 아닌 최종버전의 수정 재무제표를 얘기 했지만, 
프라이빗을 준비하기 위해서 네이버 재무데이터를 크롤링 하거나, krx 데이터를 크롤링 해서 지금 제출해버리면 이는 미래의 데이터를 사용한것이 되지 않겠습니까. 프라이빗 제출하기전 연습기간으로 활용할 수 없는건가요..

CandleMaster
2023.07.19 20:48

퍼블릭 순위가 프라이빗 순위에 스코어 부분에서 영향이 없다는 것은 맞습니다.
하지만 주최 측의 소명 요구는 이와 별개로 보입니다.(스코어와 별개로 부정행위 여부 판단)

지금이라도 자료를 제출하고 미래 데이터가 개입된 경위를 설명하여 합의를 보시는 것이 좋아보입니다.

말씀하신 공공 데이터는 미래 데이터를 포함하는 종류를 작성자분께서 사용한 것(명백한 룰 위반)이며, 
처리 방법에 따라 미래 데이터를 포함하지 않는 모델 구성은 얼마든지 가능한 것으로 보입니다.

보글
2023.07.19 21:48

대회측에 묻고싶은점은 규정에 Private 데이터셋을 사용한것을 예견편향성으로 본다고 정확히 명시해 놓았고,
Public 점수가 높다는 것으로는 대회참여자는 아무런 이득을 볼 수 없는점을 감안하여 주셔야 하는것이 아닌가 합니다.

그리고 아무 영양가 없이 실격위험만 있는 Public에는 결과물을 제출할 이유가 전혀 없지 않을까 싶고 그것이 대회 의도상 맞는건지는 의문이 듭니다.

CandleMaster
2023.07.19 22:29

다은은 대회 규칙 설명의 일부 입니다.

* 모델링의 적정성을 갖추지 못한 경우 심사에서 제외(예시: 예견편향성 등)
  - 예견편향성: 예측을 진행할 당시 가용하지 않은 데이터를 가지고 예측을 진행해 예측력이 높아지는 편향

저는 이 설명에 말씀하신 부분이 명확히 적혀있다고 생각 합니다.
즉 Private 데이터셋은 미래 데이터이므로 예측을 진행할 당시 가용하지 않은 데이터 입니다.

자료 제출을 통한 소명이 영양가 없이 실격위험만 있다고 생각하신다면 그것 또한 선택 사항이고, 저는 이 부분에 더 이상 의견이 없습니다.
작성자 분께서 가장 유리하게 생각하는 방향으로 최선의 결과를 얻으시길 바랍니다.

머신러닝머신
2023.07.19 22:28

정말 수정주가, 수정 재무제표 등 공공데이터를 사용해서 샤프지수 1 이상을 기록한 게 맞나요?

샤프 지수 1 이상이 나온다는 건 시장을 이기는 수익률과 더불어 변동성까지 통제해야 가능한 수치인데, 이게 공공 데이터 만으로 가능한지는 의문이 듭니다. 
수정 주가를 사용한다고 모델 성능이 크게 바뀌지 않을 뿐더러, 재무제표 데이터는 기업마다 발표 시점이 각기 달라서, 각 데이터 시점을 맞추기도 힘듭니다. 심지어 2분기 재무제표 결산일은 6월 30일 입니다.
'과최적화 모델' 이라는 말씀을 하셨는데, 의도적으로 미래 주가 데이터를 학습에 사용한 것으로 이해해도 될까요? 

public 모델 데이터 가용 시점이 5월 30일인 상황에서 활용한 데이터들로 어떻게 '과최적화'를 할 수 있는지 모르겠습니다.
저도 대회 참가하면서 주최측의 운영이 그렇게 스무스하다고 생각하지는 않습니다만, 데이콘 참가자라면 적어도 미래 데이터를 통해서 학습한 모델로 predict한 값을 제출했을때 리더보드에 어떤 일이 일어나는지, 열심히 정석적으로 대회 참가하는 분들이 어떤 생각을 하고 계실지, 정말 예측 못하십니까?
  
대회 마감일이 7월 28일인데 'Private 데이터셋('23년 7월 31일부터 8월 21일까지의 데이터)을 학습에 사용한것을 예견편향성으로 본다.' 라는게 현실적으로 가능하지 않다는 건 글쓴이님도 잘 알고 계실거라 믿고 싶습니다.

도의적인 책임을 뒤로 미뤄둔 채, 대회 규정의 문리적인 해석 만으로 본인들이 떳떳하다고 말할 수 있는지, 글쓴이님이 제일 잘 아실거라고 생각합니다.

보글
2023.07.19 22:36

죄송합니다. 오해가 있을것 같아 본문 조금 수정하였습니다.
말씀하신 도의적인 책임이 없지않겠지만서도 Public 점수로 인한 대회상 이득이 전혀 없다는점, 연습기간 중 과최적화 데이터를 테스트차원으로 제출했던점을 참작해 대회측은 물론 대회 참가자분들의 이해를 구할 수 있지 않을까 합니다.

그리고 규정은 대회 마감일이 7월 28일 이지만 평가 시작 전 주말(29,30일) 간의 뉴스를 활용하여 올바르지 않은 Private 대회를 시작하는 등 생각지 못하는 대회결과에 영향을 미칠 수 있는 규정을 마련해 놓은 것이 아닐까 생각됩니다.

NN_is_all_you_need
2023.07.20 00:41

Public 리더보드 순위가 Private 리더보드 순위에 영향을 미치지않는다고해서 규정을 무시할 순 없겠지요.
어쨌든 Public 리더보드는 실시간으로 보여지고 특히 스코어 경쟁하시는 분들은 다른 사람들의 점수에도 페이스가 휘말릴수도 있는 부분이라 Public 리더보드 점수의 신뢰성도 중요하다고 생각합니다. 그렇기에 Public 리더보드에서도 "미래 데이터를 사용하지 말 것" 이라는 규정이 존재하는 거 아닐까요
기재된 규정에 맞게 진행하셔야하고 규정에 어긋났다면 감수해야할 사항이라고 봅니다

보글
2023.07.20 21:23

죄송하네요 퍼블릭 또한 대회라는점을 간과했던것 같습니다. 다른분들의 페이스를 휘말리게 할 수 있다는 생각을 못했네요.. 어떤 이익을 볼 의도가 없었다는 점만 알아주셨으면 좋겠습니다.

kaggler
2023.07.20 15:00

결국 자신이 의도적으로 데이터리키지를 범한건데 무슨 과최적화입니까 ㅋㅋ 웃고갑니다

보글
2023.07.20 21:17

퍼블릭기간은 연습기간이고 프라이빗을 위해 데이터 판정방식에 대한 테스트를 하는기간이라고 판단하였습니다. 결국 퍼블릭에 대해 올바르지 못한 데이터를 제출한 제 잘못이죠.. 어떤 이익을 볼 의도가 없었다는것만 이해해 주셨으면 좋겠습니다..

제출수늘려주세요
2023.07.20 15:21

11. 수상자 통보 및 실격

잠재적 수상자는 이메일로 통보됩니다.

잠재적 수상자가 (a)첫 번째 통보 시도로부터 1주 이내에 응답하지 않거나, (b)최종 제출 마감일로부터 1주 이내에 데이콘에게 잠재적 수상자가 수상자로 지명되기를 원하지 않거나 상금을 받고 싶지 않다고 통지하는 경우, 각 경우에 그러한 잠재적 수상자는 어떠한 상금도 받지 못합니다. 그리고 대체 잠재적 수상자는 대회의 심사 기준에 따라 접수된 모든 적격 응모자 중에서 선정됩니다.

위의 (a) 및 (b)의 경우에 해당이 되었을 시, 데이콘은 참가자의 자격을 박탈할 수 있습니다.

참가자가 부정 행위, 기만 또는 기타 불공정한 경기 참여, 허위 참가자, 대회 스폰서 또는 데이콘을 위협하거나 괴롭히는 행위로 인해 대회의 합법적인 운영을 훼손하려고 시도했다고 합리적으로 판단될 경우, 대회 스폰서와 데이콘은 참가자의 자격을 박탈할 권리가 있습니다.

실격한 참가자는 데이콘의 단독 재량에 따라 대회 리더 보드에서 제거될 수 있습니다. 참가자가 대회 순위표에서 제거되는 경우, 데이콘 대회 플랫폼과 관련된 추가 수상 기능(예: 데이콘 포인트 또는 인증서)도 수여되지 않을 수 있습니다.

최종 순위표 목록은 https://www.dacon.io에 공개적으로 표시됩니다. 대회 스폰서의 결정은 최종적이며 구속력이 있습니다.

규정에 현 상황이 있는 것 같네요

이전 글
외부데이터 사용 문의
Competition - 제2회 KRX 주식 투자 알고리즘 경진대회
Likes 3
Views 1,643
Comments 3
일 년 전
현재 글
Public 기간 중 특정점수 이상인 경우 소명하지 못하면 실격이라는 규정에 대해 의논할 것이 있습니다.
Competition - 제2회 KRX 주식 투자 알고리즘 경진대회
Likes 1
Views 2,034
Comments 13
일 년 전
다음 글
공공데이터 사용가능여부
Competition - 제2회 KRX 주식 투자 알고리즘 경진대회
Likes 5
Views 1,629
Comments 3
일 년 전