2025 Samsung Collegiate Programming Challenge : AI 챌린지

채용 | SCPC | 알고리즘 | 비전 | LLM | 생성 AI | 멀티모달 | 정확도

  • moneyIcon 상금 : 6,000만원
  • 1,445명 마감
마감

 

주요 규칙을 반드시 확인해주세요.

2025.06.19 09:53 1,494 조회

안녕하세요. 데이콘입니다.


대회 참가 시 아래 주요 규칙을 반드시 확인하여 진행해주시길 바랍니다.

아래 내용은 대회 페이지 [대회 안내] -> [규칙] 탭에서 확인하실 수 있습니다.

아래 규칙에 벗어난 제출물이 확인되는 경우, 실격에 해당하기 때문에 반드시 리더보드 제출 전 확인 부탁드립니다.


4. API, 외부 데이터 및 사전 학습 모델 관련 규칙

1) 사전 학습 모델 사용 가능 범위

  • 2024년 전(~2023.12.31)에 공식적으로 가중치가 공개되었으며, 최소한 비상업적 이용이 허용된 오픈소스 라이선스(MIT, Apache 2.0 등)로 배포된 사전 학습 모델만 사용할 수 있습니다. 해당 조건을 충족하지 않는 모델은 사용이 불가능합니다.

2) API 사용 제한

  • OpenAI API, Gemini API 등과 같이 원격 서버를 통해 응답을 받는 형태의 API 기반 모델은 사용할 수 없습니다. 모든 모델은 로컬 환경(CPU 또는 GPU 기반)에서 직접 실행 가능한 형태로만 사용해야 하며, 외부 서버(클라우드 등)에 의존하는 방식은 허용되지 않습니다.

3) 외부 데이터 사용 가능

  • 2025년 6월 11일 전(~2025.06.10)에 공식적으로 공개되었으며, 최소한 비상업적 이용이 허용된 라이선스(CC BY-NC, CC0 등)로 배포된 외부 데이터만 사용할 수 있습니다. 해당 조건을 충족하지 않는 외부 데이터는 사용이 불가능합니다.
  • 직접 촬영하거나 수기로 작성한 데이터는 사용할 수 없습니다.
  • 모든 규칙을 준수하며 코드 상에서 구현이 가능한 방식으로 사용되는 경우, 해당 데이터는 ‘데이터 증강’으로 간주되어 사용이 가능합니다.

※ 데이터 증강 예시: 이미지 변형, 생성AI 모델을 활용한 데이터 생성 등

🔹모든 외부 데이터는 출처, 사용 방식, 데이터 파일 등 증빙이 가능해야 하며, 이에 대한 확인이 이루어지지 않을 경우 실격 처리될 수 있습니다.

🔹모든 데이터 증강 과정은 관련 코드와 함께 제출되어야합니다.

4) 추론 모델 가중치의 총합은 '3B' 미만

  • 리더보드에 제출하는 예측 결과는 아래 조건을 반드시 충족해야 합니다.

🔹추론에 사용되는 모든 모델의 총 파라미터 수는 반드시 3B(30억 개) 미만이어야 합니다.

🔹이 기준은 추론 코드에서 실제로 로드(Load)되는 모든 모델의 가중치(parameter)의 수 합계를 기준으로 판단합니다.

※ 예시: 2B 모델 10개를 순차적으로 로드하여 각각 추론 후 메모리에서 제거하더라도, 추론 과정에서 총 10개의 모델 가중치가 각각 로드되므로 총합 20B로 규칙 위반에 해당합니다.


6. 유의 사항

  • 1일 최대 제출 횟수: 3회
  • 사용 가능 언어: Python
  • 대회 기간과 참가자들의 점수 분포 등을 고려하여, 주최측의 요청에 따라 일정 기간 동안 '코드 공유' 탭이 일시적으로 비활성화될 수 있습니다.
  • 모든 csv 형식의 데이터와 제출 파일은 UTF-8 인코딩을 적용합니다.
  • 모델 학습과 추론에서 평가 데이터셋 정보 활용(Data Leakage)시 실격 또는 본선 진출이 불가능합니다.
  • 평가용 이미지 또는 지문을 수작업으로 라벨링하거나, 이를 기반으로 정답을 직접 추정하여 학습 데이터처럼 사용하는 행위
  • 평가 데이터셋에서 특정 패턴이나 정답 분포를 분석해 모델 구조, 전처리 방식, 정답 후보 설정 등에 반영하는 행위 등
  • 모든 학습, 추론의 과정 그리고 추론의 결과물들은 정상적인 코드를 바탕으로 이루어져야하며, 비정상적인 방법으로 얻은 제출물들은 적발 시 규칙 위반에 해당됩니다.
  • 최종 순위는 선택된 파일 중에서 채점되므로 참가자는 제출 창에서 자신이 최종적으로 채점 받고 싶은 파일 1개를 선택해야 함
  • 대회 직후 공개되는 Private 랭킹은 최종 순위가 아니며 본선 진행 후, 최종 수상자가 결정됨
  • 데이콘은 부정 제출 행위를 금지하고 있으며 데이콘 대회 부정 제출 이력이 있는 경우 평가가 제한됩니다. 자세한 사항은 아래의 링크를 참고해 주시기 바랍니다.

https://dacon.io/notice/notice/13



감사합니다.

로그인이 필요합니다
0 / 1000
쓩쓩
2025.06.19 10:09

안녕하세요.

규칙 4-1)에서 ‘2024년 이전 공개 가중치만 허용’이라 되어 있습니다.  
2023-12-31 23:59까지 공개된 모델만 사용 가능하다는 해석이 맞는지 확인 부탁드립니다.

감사합니다.

DACON.GM
2025.06.19 10:12

네 맞습니다.

Naturesh
2025.06.19 13:08

앙상블 모델은 불가능 하다고 하셨는데 사전 학습된 모델을 퓨전(각 모델 결과를 다시 새로운 레이어에 사용)해 사용하는것도 금지인가요?

DACON.GM
2025.06.19 13:10

네, 본 챌린지에서는 단일 모델 기반 추론만 허용하며, 이는 다음과 같은 방식들을 모두 포함하여 금지됩니다.
- 여러 개의 사전 학습 모델의 출력을 조합하여 최종 예측에 활용하는 방식 (late fusion)
- 서로 다른 모델의 feature를 합쳐서 추가 레이어에 입력하는 방식 (feature-level fusion)
- 여러 모델의 결과를 평균, 가중 평균하는 방식 (ensemble averaging) 등

Naturesh
2025.06.19 13:16

사전학습 모델이 사용 가능한것으로 알고 있는데 이 경우 파인튜닝이 아닌 LoRA, 등을 통하여 결과물을 낼 경우  앙상블 조건에 위배된다고 볼수도 있는건가요?

DACON.GM
2025.06.19 13:34

좋은 질문주셔서 감사합니다.

먼저 해당 방법은 앙상블에 해당하지 않다고 봅니다.
LoRA(또는 QLoRA, Adapter 등)와 같은 경량 파인튜닝 방식은 단일 backbone 모델 내에 추가되는 학습 가능한 모듈로서, 단일 모델 구조 내의 구성 요소로 간주됩니다. 따라서 단일 backbone 위에서 LoRA를 적용하여 추론한 결과는 앙상블 조건에 위배되지 않으며, 허용됩니다.

또한, 여러 개의 LoRA adapter를 하나의 backbone에 연결하고, 이들 중 하나를 선택하거나 조합하여 예측 결과를 생성하는 방식 역시, 동일한 backbone 기반에서의 내부 메커니즘으로 간주되기 때문에 단일 모델로 인정되며 허용됩니다.
이는 LoRA 뿐만 아니라, 동일한 가중치를 공유하는 백본에서 여러개의 Head를 활용하는 것도 포함됩니다.

그러나 서로 다른 backbone 구조를 사용하는 모델들을 병렬로 구성하고, 이 모델들의 각각의 예측 결과를 결합하여 제출하는 방식은 명백한 모델 앙상블에 해당하므로 허용되지 않습니다.

DACON.GM
2025.06.24 15:26

앙상블 관련하여 https://dacon.io/competitions/official/236500/talkboard/414112?page=1&dtype=recent
해당 안내글에서 규칙이 개정되었으니 반드시 참고 부탁드립니다.

teslah100
2025.06.19 16:30

안녕하세요. 
데이터 증강에서는 API, 사전공개모델(24년도 이전), 모델크기(3B미만) 제약이 전부 걸려있나요?

감사합니다.

DACON.GM
2025.06.19 16:35

3B 제한은 해당 챌린지의 평가 데이터 추론 모델의 제한입니다.
데이터 증강은 사전학습모델/API/외부데이터 규칙을 따릅니다.

teslah100
2025.06.19 17:10

답변감사합니다. 25년 1월 오픈소스 모델 또한 사용이 불가능한게 맞을까요?
모델은 24년도 이전, 데이터는 25년도 이후이길래 문의드립니다. 

DACON.GM
2025.06.19 17:28

데이터라는 것은 모델 사전학습에 활용된 데이터를 말씀하시는 것인가요?
‘2024년 이전에 공식적으로 가중치가 공개된 모델’만 사용 가능하다는 기준은, 모델 아키텍처가 2024년 이전에 공개되었더라도,
해당 가중치가 2025년 이후에 새롭게 공개된 데이터로 사전학습된 경우에는 해당 가중치는 사용할 수 없습니다.

DACON.GM
2025.06.19 17:33

외부 데이터 기준일과 사전학습모델 기준일은 다른 것이 맞습니다.

파이썬초보만
2025.06.19 19:24

후기 대학원 입학 예정자(9월)도 참가할 수 있을까요?

DACON.GM
2025.06.20 09:23

9월 대학원 입학 예정자는 참가가 불가능합니다.
참가 신청 기간 : 2025년 06월 11일(수) 10:00 ~ 2025년 07월 10일(목) 10:00 에 참가 자격을 만족하는 상태여야합니다.

헤비영
2025.06.19 20:30

2024년 이전이라 함은 2024년도 포함한다는 뜻 아닌가요?

안나푸르나
2025.06.20 09:41

안녕하세요.

2024년 이후에 공개된 모델 + 사전학습 가중치를 사용하지 않고 처음부터 학습

의 경우에는 가능한지 궁금합니다

DACON.GM
2025.06.20 09:47

불가능합니다. 가중치, 모델 아키텍쳐 모두 24년 이전에 공개된 모델만 사용 가능합니다.

안나푸르나
2025.06.26 17:53

삭제된 댓글입니다

눔피눔피
2025.06.20 10:56

2025년 1월에 공개된 상업적 이용이 가능한 외부데이터가 OpenAI API를 이용해서 생성된 경우 사용이 가능한가요?

DACON.GM
2025.06.20 11:53

공식적으로 라이센스가 부여되어 공개되어 있는 외부 데이터라면 가능하며 사용 시 그 출처를 분명히 증빙할 수 있어야합니다.

LEXXSH
2025.06.20 12:54

안녕하세요. 학습하는 과정에서 1,2,3번을 위반하지않는 모델을 사용하여 knowledge distillation을 진행하는 과정이 규칙 위반인지 궁금합니다.

DACON.GM
2025.06.20 13:17

가능한 방법입니다.

LEXXSH
2025.06.20 14:52

한가지만 더 질문드리겠습니다.
추가 외부 학습데이터셋을 선정하는 기준에서, 데이터 형식이 선다형인것을 우선선택하는것이 데이터 리키지에 해당하는지 궁금합니다. 

DACON.GM
2025.06.20 16:49

단순히 선다형 형태의 외부데이터를 선택하는 것은 데이터리키지에 해당하지 않습니다. 
테스트 데이터가 선다형으로 구성되있는 정보는 이미 공개된 정보입니다.

안나푸르나
2025.07.03 21:14

삭제된 댓글입니다

harrystyles34
2025.08.28 17:45

삭제된 댓글입니다