Boost up AI 2025 : 신약 개발 경진대회

private 데이타셋에 대한 고찰.

2025.07.31 10:23 491 조회

final_clipped.csv

PS C:\Users\Isaac_Han\Desktop\CS\IBM_RedHat> & C:/Users/Isaac_Han/anaconda3/envs/uni_torch_env/python.exe c:/Users/Isaac_Han/Desktop/CS/IBM_RedHat/_data/dacon/BoostUpAI2025/noisy_label_reduced/IsotonicCalibration.py

       Inhibition

count  100.000000

mean    33.257448

std     24.412356

min      0.000000

25%     15.474171

50%     26.929233

75%     46.295073

max    100.000000

PS C:\Users\Isaac_Han\Desktop\CS\IBM_RedHat> edit


데이타에 노이즈가 강해서 강제로 데이타셋을 평균과 분포를 조정했는데 점수가 25등에서 139등으로 떨어졌네요. 100개 테스트셋이 랜덤으로 뽑은게 아니라 특정 지역에서 가져왔네요.....

y_pred = np.clip((y_pred - y_pred.mean()) / y_pred.std() * y_true.std() + y_true.mean(), 0, 100) Calibration Method.



TDC - CYP3A4 Inhibitor Classifier.

        """

        TDC dataset results

        Confusion Matrix:

        [[1090  295]

        [ 186  896]]

        Classification Report:

        precision    recall  f1-score   support

        Non-Inhibitor (0)       0.85      0.79      0.82      1385

        Inhibitor (1)       0.75      0.83      0.79      1082

        Generated code

        accuracy                           0.81      2467

            macro avg       0.80      0.81      0.80      2467

        weighted avg       0.81      0.81      0.81      2467

        """

간결하게 신뢰도가 높은 Binary Classifier로 기존 트레이닝 데이타셋을 구분했습니다.


TDC Inhibitor라고 판별되지만 Inhibition이 0 이나오고 TDC non-inhibitor라고 판별되지만 60프로 이상의 매우높은 Inhibition이 나오는 부분이 있습니다. 따라서 Public score를 올리기위해 다들 noise label reduction technique을 사용해서 점수를 올렸습니다. 그런데 데이타셋에서 랜덤으로 가져온게 아니라 특정 지역에 몰려있는것을 가져왔나 봅니다.1등부터 10등중 2명뺴고 최근에 활동을 안하신분들이네요.



로그인이 필요합니다
0 / 1000
굼바
2025.07.31 11:12

저희도 강제로 분포 조절했는데 이렇게 되어서 아쉽네요.. 수고 많으셨습니다