제 4회 ETRI 휴먼이해 인공지능 논문경진대회

알고리즘 | 정형 | 라이프로그 | 논문 | 분류 | Macro F1-Score

상금 : 770만원
1,034명 마감

마감

대회안내 데이터 코드 공유 토크 newIcon

리더보드

제출

[자료] 이전대회 자료 공유드립니다.

마네키네코

2025.05.27 10:03 1,026 조회

안녕하세요, 프리랜서 개발자 박준호입니다.

논문작성과 모델링에 참고할 수 있는 지난대회 자료를 공유드립니다.

1. 지난대회 대상수상자 논문자료:

https://www.arxiv.org/abs/2502.17469

2. 지난대회 수상자의 논문리뷰 블로그 글:

https://sjkoding.tistory.com/95

3. 지난대회 토론자료:

https://aifactory.space/task/2790/discussion

저는 주로 주말에 코딩하고 평일에는 파라메터 만 변경하여 업데이트 하는 편인데요. 최근에 점수가 오르지 않아서 멘탈이 흔들리고 있습니다.ㅜㅜ 데이터가 적어서 그런가 오버피팅이 자꾸 생기네요. 학습성적은 좋았는디...

힘내서 모두 함께 완주했으면 좋겠습니다.^^

댓글 9개

로그인이 필요합니다

comment

0 / 1000

곰돌이푸바오

2025.05.27 13:27

감사합니다:)

마네키네코

2025.05.27 13:52

네 감사합니다.^^

비비드백

2025.05.27 13:40

감사합니다! 공유해주신 코드 공유 통해서 점수 많이 향상시켰습니다!
데이터가 불균형한 것 같아서, 데이터 불균형 처리 및 SMOTE로 데이터 증강을 진행하긴 했습니다.
저 같은 경우는 LGBM으로 진행하는데 어떤 모델 사용하시는지 알 수 있을까요?
데이터가 적어서 딥러닝은 힘들지 않을까 생각합니다!

마네키네코

2025.05.27 13:54

안녕하세요, 현재는 from catboost import CatBoostClassifier 사용하고 있니다. NaN값에 대한 적절한 보간값을 정하는것이 쉽지않아서 NaN을 허용하는 모델 위주로 진행하고 있습니다.^^

비비드백

2025.05.27 13:58

저는 트리모델인 lgbm으로 진행해서 nan값은전부 -1로 처리해서 진행하고 있긴했습니다. catboost는 범주형 데이터에서 효과가 있을 것 같은데, usageApp(성경일독, 카카오톡 ...)부분에서 catboost를 적용하면 정말 좋을 것 같네요!
s1을 예측하는 부분에서 f1 score가 크게 나오지 않는데, s1은 말씀 주신 catboost로 진행해봐야겠습니다! 좋은 고견 감사합니다.
그리고 optuna로 오버피팅이 되지 않게 적당한 parameter을 통해서 하이퍼파라미터 튜닝을 진행해도 정확도가 약 3~4%정도 상승되는 것 같습니다! (제 데이터가 이상해서 그런걸 수도 있을 것 같지만...)
좋은 의견 감사합니다:)

마네키네코

2025.05.27 14:05

넵, 좋은 아이디어 공유에 감사드립니다. 저도 적용해보겠습니다.^^

마네키네코

2025.05.27 14:11

그리고 저는 NaN 때문에 SMOTE 대신 from imblearn.over_sampling import RandomOverSampler 사용했습니다.

비비드백

2025.05.27 14:13

좋은 데이터 증강 기법 말씀해주셔서 정말 감사합니다. 대화를 잠시 나누었지만, 정말 많이 배운 것 같습니다.
저도 더이상 성능이 오르지 않아서 EDA를 더 열심히 해보려고했는데, 말씀해주신 방법을 적용해보겠습니다!
감사합니다:)

마네키네코

2025.05.27 14:20

넵, 저도 감사합니다.