분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
Boost up AI 2025 : 신약 개발 경진대회
private 데이타셋에 대한 고찰.
final_clipped.csv
PS C:\Users\Isaac_Han\Desktop\CS\IBM_RedHat> & C:/Users/Isaac_Han/anaconda3/envs/uni_torch_env/python.exe c:/Users/Isaac_Han/Desktop/CS/IBM_RedHat/_data/dacon/BoostUpAI2025/noisy_label_reduced/IsotonicCalibration.py
Inhibition
count 100.000000
mean 33.257448
std 24.412356
min 0.000000
25% 15.474171
50% 26.929233
75% 46.295073
max 100.000000
PS C:\Users\Isaac_Han\Desktop\CS\IBM_RedHat> edit
데이타에 노이즈가 강해서 강제로 데이타셋을 평균과 분포를 조정했는데 점수가 25등에서 139등으로 떨어졌네요. 100개 테스트셋이 랜덤으로 뽑은게 아니라 특정 지역에서 가져왔네요.....
y_pred = np.clip((y_pred - y_pred.mean()) / y_pred.std() * y_true.std() + y_true.mean(), 0, 100) Calibration Method.
TDC - CYP3A4 Inhibitor Classifier.
"""
TDC dataset results
Confusion Matrix:
[[1090 295]
[ 186 896]]
Classification Report:
precision recall f1-score support
Non-Inhibitor (0) 0.85 0.79 0.82 1385
Inhibitor (1) 0.75 0.83 0.79 1082
Generated code
accuracy 0.81 2467
macro avg 0.80 0.81 0.80 2467
weighted avg 0.81 0.81 0.81 2467
"""
간결하게 신뢰도가 높은 Binary Classifier로 기존 트레이닝 데이타셋을 구분했습니다.
TDC Inhibitor라고 판별되지만 Inhibition이 0 이나오고 TDC non-inhibitor라고 판별되지만 60프로 이상의 매우높은 Inhibition이 나오는 부분이 있습니다. 따라서 Public score를 올리기위해 다들 noise label reduction technique을 사용해서 점수를 올렸습니다. 그런데 데이타셋에서 랜덤으로 가져온게 아니라 특정 지역에 몰려있는것을 가져왔나 봅니다.1등부터 10등중 2명뺴고 최근에 활동을 안하신분들이네요.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
직업정보제공사업 신고번호: J1204020250004
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io |
전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
저희도 강제로 분포 조절했는데 이렇게 되어서 아쉽네요.. 수고 많으셨습니다