분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이타 사용에 대한 기준을 조금 명확하게 하기 위한 질문입니다..
안녕하세요. 대회주관 및 주최 관계자 여러분~
본 게시판에 등록된 "train/test 데이터 관련 data leakage", "참고자료 텍스트 사용 문의" 2개의 질문에 대한 답변 내용은 서로 상반될 여지가 있어 조금 명확하게 해주셨으면 합니다. (상반된다고 생각한 이유는 참고자료 정보에 test 데이타의 정보가 있기 때문입니다. test데이타의 OOV가 일부 해소됩니다.)
질문드리는 내용은
1. "사전학습모델" 사용이 가능하다고 했는데, "사전학습모델"의 "가중치" 또는 "Vector"만 사용할 수 있다는 것인지 아니면 AIHUB, 기타 공개 데이타 사이트 등과 같은 공개 데이타를 이용하여 "사전학습모델"을 전이학습한 것까지 사용할 수 있다는 것인지요 ?
2. AIHUB, 기타 공개 데이타 사이트 등의 자연어 데이타셋을 이용하여 기후기술분류를 위한 별도의 Vector모델을 만들어서 사용 가능한가요 ? (물론 코드와 함께 제출합니다.)
3. 혹시, test 데이타를 제외한 모든 자연어 데이타셋 사용이 가능한가요 ?
많은 대회 참가분들께서는 여러가지 문제 중에 OOV 문제를 해소하기 위하여 노력할 것으로 보입니다.
질문의 의도는 본 대회의 결과물이 Business Value에 기여하기 위한 결과물이라 가정하여 최대한 많은 문제를 해소하기 위한 질문입니다.
수고하세요~
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
안녕하세요 작성자님.
이번 대회 규칙은 '법적 제약이 없으며 공개된 사전 학습 모델의 사용을 허용'하고 있습니다.
공개 데이터의 사용이 법적, 상업적 문제가 되지 않는다면 사용하셔도 되나
코드 검증이 필요할 경우 사용하신 데이터를 같이 제출해주셔야 합니다.
test 데이터는 사용하시면 data leakage 에 해당합니다.
대신 이를 제외한 데이터셋은 사용 가능합니다.
감사합니다.
데이콘 드림.