Sentence Type Classification AI Competition

Algorithm | NLP | Classification | Weighted f1 Score

Prize : 5,000,000 KRW
2022.12.12 ~ 2022.12.23 09:59 + Google Calendar
1,046 Users Completed

Practice

Overview Data Code (share) Talk Leaderboard

Submission

[Private 4th]klue/r-large + custom layer + 5-Fold + Ensemble

아최나

2022.12.25 14:44 2,931 Views language

안녕하세요! 솔루션 코드 공유드립니다.
부족한 부분이 많아, 피드백 주시면 감사하겠습니다!

전반적인 학습 프로세스는,
1.EDA를 통한 중복제거
2.Klue/roberta-large
3.hidden_states,sequence_output,pooled_output 추출
4.3번 결과물에 custom heads(roberta classification head, concat last 4 hidden state, custom head), pooling layers(mean-max, weighted) 통과
5. 각각의 label로 분류
6. 단일모델 5-fold
7. 6번의 결과물 5개로 하드보팅
입니다.

코드는 패키지형식으로 작성하여 굉장히 양이 방대하기에, 깃허브 링크 및 발표자료로 대체하겠습니다!
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
https://github.com/wogkr810/Dacon_Sentence_Type_Classification
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
깃허브 저장소에는
1. 대회 소개 및 성적
2. 프로젝트 간단한 설명
3. 사용 및 재현
4. 디렉토리 구조
5. 참고
6. 개인적인 회고
등으로 상세히 기술하였습니다. 재현 및 실험환경에 관한 것은 3번 참고하시면 좋을 것 같습니다.

추가적으로,
1. 시작할 때 EDA를 진행하면서 코드 공유 게시판에
['큰 도움 안되는 EDA'](https://dacon.io/competitions/official/236037/codeshare/7317?page=1&dtype=recent) 제목으로 올린 글에서와 같이 소량의 중복을 제거하고 진행하였습니다(코드 내부 포함).

2. wandb를 사용하실 경우에는, wandb 관련 주석해제 후 login key, name, project 설정 후 사용하시면 됩니다.

날 추운 연말, 다들 건강 챙기시면서 행복하게 보내세요!