진동데이터 활용 충돌체 탐지 AI 경진대회

tarin / test 이 서로 너무 다른것 같아 질문을 올립니다.

2020.06.09 19:21 5,398 Views

분석을 진행하면서 느낀점은 train과 test의 성질이 다른 것으로 예상됩니다. 그 이유로는 아래와 같습니다.


  1. validation score와 LB score의 심한 차이
  2. 진동데이터 톺아보기 - train 과 test의 분포가 다르다? [최정명님 notebook 내용]


유용균 박사님 영상을 통해 train 데이터 셋에 대한 정보를 알 수 있지만 test 데이터 셋에 대한 정보가 없어 어려움을 겪고 있습니다. 대회 진행 방해가 없는 범위에서 test 데이터 셋에 대한 정보를 알 수 있을까 해서 이렇게 글을 올립니다.

로그인이 필요합니다
0 / 1000
DACONIO
2020.06.10 14:54

안녕하세요 1Gb님. 
train데이터와 test데이터의 샘플링 방법이 다릅니다. 
바둑판에 비유를 들자면 train 데이터는 바둑판에서 선끼리 만나는 점에서 샘플링 되었고 test데이터는 선과 관계없이 바둑판 위의 임의의 점을 샘플링 했습니다. 
감사합니다.

bluekds
2020.06.10 17:37

그럼 값 값이 정해진 범위내에서 임의의 정수 값을 가질 수 있다고 이해하면 될까요?
예를들어 training data에서는 X좌표가 100 단위로 바뀌는데, test data에서는 X값이 34 등과 같이 될수 있나요?

1Gb
2020.06.10 17:52

삭제된 댓글입니다

DACONIO
2020.06.10 22:46

안녕하세요 bluekds님. 
네 맞습니다. 실수(real number)인 임의의 점입니다. 
감사합니다. 

처음해봐요
2020.06.10 17:50

그러면 test의 xy는 train의 x y값 안에 포함되나요? -400~400 범위안에 랜덤 값으로 생각하면 될까요?

DACONIO
2020.06.10 22:12

안녕하세요 처음해봐요님.
공정한 대회 운영을 위해 정답값의 통계량 관련 질문에는 답변드릴 수 없음을 양해부탁드립니다.
감사합니다.