제2회 Medical AI (MAI) 경진대회

[data leakage 관련] test.csv를 활용하여 모델 파인튜닝

2025.11.21 13:47 852 Views

안녕하세요.

신약보단마약이지 님이 공유해주신 코드 공유의 파일에  아래와 같이 test.csv를 통해 triple 데이터를 만들어서 학습에 활용하는데, 해당 부분은 허용되는지 궁금합니다.


TEST_PATH = os.path.join(DATA_DIR, "test.csv")

test_df = pd.read_csv(TEST_PATH)
sequences = test_df['seq'].tolist()
...
triplet_data = generate_triplets(sequences, 30000)
...
anchor = random.choice(sequences)
...
        if random.random() < 0.5:
            pos = anchor
        else:
            pos = reverse_complement(anchor)


Login Required
0 / 1000
진욱
2025.11.21 14:05

저도 동일한 부분 궁금했는데, 질문해주셔서 감사합니다!!

신약보단마약이지
2025.11.22 15:40

이 부분은 저도 고민 많이 했었는데요
데이터 리키지보단 도메인 적응이 맞다고 생각해서 공유드리게 되었습니다.
DNA서열만 활용했으며 학습을 위해서 랜덤 규칙으로 가짜 데이터 쌍을 생성
최종적으로 평가에 사용되는 숨겨진 테스트 데이터의 활용은 없었습니다.
일단 대회측 얘기도 들어봐야 할 것 같긴 하네요 ! 좋은 질문 남겨주셔서 감사합니다

한교동짬뽕
2025.11.24 14:25

너무 중요한 부분인 것 같아서 대회 측 의견이 궁금하네요..!

DACON.PSH
2025.11.25 09:23

test set은 어떠한 형태로든 학습에 사용이 불가능합니다.