분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
2025 금융 AI Challenge : 금융 AI 모델 경쟁
프롬프팅 , 학습 규칙, 모델 문의드립니다.
이번 대회는 별도의 학습 데이터 없이 test.csv만 제공되고 있습니다.
이에 따라 앞으로 시도할 프롬프트 설계나 학습 과정에서 데이터 리키지(leakage)와 관련해 아래와 같이 문의드립니다.
test.csv 파일의 내용을 직접적으로 참고하거나 문제 유형을 명확하게 겨냥하는 방식은 허용되지 않는 것으로 알고 있습니다.
다만, test.csv의 구체적 문제 유형에 맞춘 프롬프트를 설계하지 않고,
해당 도메인(예: 금융, 보안 등)의 일반적인 특징이나 전반적인 유형을 반영하는 수준에서 프롬프트나 학습 데이터를 구성하는 것은 허용되는지 궁금합니다.
즉,
1.도메인에 대한 일반적 이해 또는 넓은 범주의 문제 유형을 참고하여 모델을 설계하는 것은 규정상 가능한지
2.또한, Chain-of-Thought(COT)나 few-shot 예시를 생성할 때 임의로 만든 예시가 test 데이터셋의 실제 문제와 우연히 일치하거나 유사해질 가능성에 대해서 이러한 경우가 허용되는지 궁급합니다.
3.추가적으로 gemma, exaone, llama 라이선스들은 허용되는지 각각 궁금합니다!
명확한 가이드라인 부탁드립니다! 감사합니다.
동의합니다! 공식 답변도 궁금하네요~
test.csv 내 지문/유형들을 알 수 없다는 가정하에 진행하시면 되겠습니다.
1) 가능합니다.
2) 증빙할 수 있는 자료(코드 등)를 제시할 수 있다면 가능합니다.
3) 각 모델들의 라이센스를 확인하여 규칙2)를 참고하여 진행하시면 됩니다. 말씀해주신 모델들은 모두 사용 가능한 모델입니다.
감사합니다
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
제 개인적인 견해입니다.
1. 가능합니다.
2. 모델 학습과 추론 과정에서 leakage가 금지됩니다. 다른 말로, 데이터 증강 과정에서 직접적으로 test 데이터셋을 참고하지 않았다면 그 결과물이 test 데이터셋과 비슷해 지더라도 leakage가 아니라고 생각됩니다. 예를 들어, "금융보안, 사이버보안, 금융산업 구조에 대해 Chain-of-Thought(COT)나 few-shot 예시를 만들어줘" 같은 수준의 프롬프트로 증강하는 건 허용된다고 생각합니다. 설령 그 카테고리가 test 데이터셋을 참고했더라도, 직접적으로 test.csv를 데이터 증강시 few-shot 예시로 넣지 않는다면 leakage가 아닙니다.