자연어 기반 기후기술분류 AI 경진대회

알고리즘 | NLP | 분류 | 환경 | Macro f1 score

  • moneyIcon 상금 : 총 600만원
  • 1,062명 마감

 

데이타 사용에 대한 기준을 조금 명확하게 하기 위한 질문입니다..

2021.07.09 16:37 2,193 조회

안녕하세요. 대회주관 및 주최 관계자 여러분~


본 게시판에 등록된 "train/test 데이터 관련 data leakage", "참고자료 텍스트 사용 문의" 2개의 질문에 대한 답변 내용은 서로 상반될 여지가 있어 조금 명확하게 해주셨으면 합니다. (상반된다고 생각한 이유는 참고자료 정보test 데이타의 정보가 있기 때문입니다. test데이타의 OOV가 일부 해소됩니다.)


질문드리는 내용은 


1. "사전학습모델" 사용이 가능하다고 했는데, "사전학습모델"의 "가중치" 또는 "Vector"만 사용할 수 있다는 것인지 아니면 AIHUB, 기타 공개 데이타 사이트 등과 같은 공개 데이타를 이용하여 "사전학습모델"을 전이학습한 것까지 사용할 수 있다는 것인지요 ?


2. AIHUB, 기타 공개 데이타 사이트 등의 자연어 데이타셋을 이용하여 기후기술분류를 위한 별도의 Vector모델을 만들어서 사용 가능한가요 ? (물론 코드와 함께 제출합니다.)


3. 혹시, test 데이타를 제외한 모든 자연어 데이타셋 사용이 가능한가요 ?



많은 대회 참가분들께서는 여러가지 문제 중에 OOV 문제를 해소하기 위하여 노력할 것으로 보입니다.

질문의 의도는 본 대회의 결과물이 Business Value에 기여하기 위한 결과물이라 가정하여 최대한 많은 문제를 해소하기 위한 질문입니다.


수고하세요~

로그인이 필요합니다
0 / 1000
DACONIO
2021.12.21 16:27

안녕하세요 작성자님.

이번 대회 규칙은 '법적 제약이 없으며 공개된 사전 학습 모델의 사용을 허용'하고 있습니다.

공개 데이터의 사용이 법적, 상업적 문제가 되지 않는다면 사용하셔도 되나 

코드 검증이 필요할 경우 사용하신 데이터를 같이 제출해주셔야 합니다.

test 데이터는 사용하시면 data leakage 에 해당합니다.

대신 이를 제외한 데이터셋은 사용 가능합니다.

감사합니다. 
데이콘 드림.