월간 데이콘 한국어 문장 관계 분류 경진대회

알고리즘 | NLP | 분류 | 자연어 | Accuracy

  • moneyIcon Prize : 100만원 + α
  • 1,325명 마감

 

[Private 4th/0.89735, 0.89675] Using Roberta Large

2022.03.01 21:38 2,526 Views language

안녕하세요. 먼저, 좋은 대회를 열어주셔서 감사합니다. 처음 참여해보는 NLP 대회라 다른 분들께 많이 배워갑니다. 

저는 google colab Pro 환경에서 코드를 진행하였으며, KLUE Official nli Dataset을 Train Dataset으로 사용하였습니다. 
사용한 모델은 RoBERTa-Large(모델 1,2,3,4)을 10fold(5,8,3 epochs), 15fold(3 epochs)로 StratifiedKFold를 진행하여, 모델 별 fold 수와 epochs 수를 고려하여, Weighted Voting을 적용하여 최종 결론을 제출했습니다.(각 fold에서 validation accuracy가 높은 epoch을 선택해주었습니다.)
이외 대부분의 parameter는 베이스라인 그대로 사용하였습니다.

부족한 코드지만, 보시면서 궁금하신 부분이나 개선점들을 댓글로 남겨주시면 많이 배우겠습니다. 감사합니다. 

각 모델에 대해서 적용하는 부분이 달라지는 코드의 경우 * 를 사용하여 표시해두었습니다. 

Code
로그인이 필요합니다
0 / 1000
Mather
2022.03.01 22:01

플필 사진을 데이콘으로^^ 축하드립니다.

휘오
2022.03.01 22:07

댓글 감사합니다 ^^  

오끼동
2022.03.02 11:12

가중치를 0.25, 0.4 이런식으로 하셨는데, 이 가중치는 어떤 방식으로 결정하신 건가요? 제출하신 score에서 추출하신 건가요??

휘오
2022.03.02 13:57

 각 모델의 fold 수와 epochs 수가 다른데, 두 개가 증가될 수록 validation accuracy가 소폭 향상되는 결과가 있어서, 감안하여 적절하게 weight을 결정했었는데, 가장 마지막에서 알수 있는 것처럼 그냥 두 모델을 soft ensemble 한 결과와 비슷해서 weight 보다는 seed ensemble 한 부분이 더 유효했다고 생각합니다.  댓글 감사합니다.

ccc82
2022.03.06 10:48

휘오님 딥러닝 좀 잘하시네요 많이 배워갑니다.!

휘오
2022.03.11 13:52

댓글 감사합니다 ^^

Beneble
2022.03.12 18:18

안녕하세요!  공유해주신 코드로 공부 중에 궁금한 점이 있어서 댓글 남겨요.

encoded_test =  test['test'].remove_columns("label").map(preprocess_function, batched=True, remove_columns = ['premise', 'hypothesis'])

- 위 부분에서 map()함수 안에 remove_columns와 밖에서의 Dataset.remove_columns로 따로 처리해주는 이유가 있나요??

- 아마 map함수의 remove_columns의 기능이 다를 것 같다고 생각하는데 어떤 식으로 동작하는 것인지 이해가 안되네요... 
  - 혹시, map 안에서의 remove_columns는 원래 컬럼 값을 지우고 preprocess function의 결과값을 저장하기 위해서 쓰는 것인가요? (그렇다면 trainset에는 이부분을 안하셨으니 이건 아닌 것 같고...)

코드 공유 감사합니다! 덕분에 많이 배우고 있어요 ㅎㅎ

휘오
2022.03.15 13:32

test set에서 우선적으로 preprocess_function을 사용하기 위해서는  ['premise', 'hypothesis'] 정보가 필요하고, 변환 이후에는 필요가 없기 때문에, 변환 이후에 제거해주는 방식으로 요약하면, 'label'과는 변수 제거의 순서가 다르다는 점을 말씀드리면 될 것 같습니다.  조금 늦게 확인했네요. 댓글도 감사합니다. 

Beneble
2022.03.16 19:59

답글 감사합니다!

honghansol
2022.07.21 12:38

감사합니다