분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Boost up AI 2025 : 신약 개발 경진대회
private 데이타셋에 대한 고찰.
final_clipped.csv
PS C:\Users\Isaac_Han\Desktop\CS\IBM_RedHat> & C:/Users/Isaac_Han/anaconda3/envs/uni_torch_env/python.exe c:/Users/Isaac_Han/Desktop/CS/IBM_RedHat/_data/dacon/BoostUpAI2025/noisy_label_reduced/IsotonicCalibration.py
Inhibition
count 100.000000
mean 33.257448
std 24.412356
min 0.000000
25% 15.474171
50% 26.929233
75% 46.295073
max 100.000000
PS C:\Users\Isaac_Han\Desktop\CS\IBM_RedHat> edit
데이타에 노이즈가 강해서 강제로 데이타셋을 평균과 분포를 조정했는데 점수가 25등에서 139등으로 떨어졌네요. 100개 테스트셋이 랜덤으로 뽑은게 아니라 특정 지역에서 가져왔네요.....
y_pred = np.clip((y_pred - y_pred.mean()) / y_pred.std() * y_true.std() + y_true.mean(), 0, 100) Calibration Method.
TDC - CYP3A4 Inhibitor Classifier.
"""
TDC dataset results
Confusion Matrix:
[[1090 295]
[ 186 896]]
Classification Report:
precision recall f1-score support
Non-Inhibitor (0) 0.85 0.79 0.82 1385
Inhibitor (1) 0.75 0.83 0.79 1082
Generated code
accuracy 0.81 2467
macro avg 0.80 0.81 0.80 2467
weighted avg 0.81 0.81 0.81 2467
"""
간결하게 신뢰도가 높은 Binary Classifier로 기존 트레이닝 데이타셋을 구분했습니다.
TDC Inhibitor라고 판별되지만 Inhibition이 0 이나오고 TDC non-inhibitor라고 판별되지만 60프로 이상의 매우높은 Inhibition이 나오는 부분이 있습니다. 따라서 Public score를 올리기위해 다들 noise label reduction technique을 사용해서 점수를 올렸습니다. 그런데 데이타셋에서 랜덤으로 가져온게 아니라 특정 지역에 몰려있는것을 가져왔나 봅니다.1등부터 10등중 2명뺴고 최근에 활동을 안하신분들이네요.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저희도 강제로 분포 조절했는데 이렇게 되어서 아쉽네요.. 수고 많으셨습니다