월간 데이콘 법원 판결 예측 AI 경진대회

알고리즘 | 언어 | 분류 | Accuracy

  • moneyIcon 상금 : 인증서
  • 1,139명 마감

 

public 점수가 0.5로 고정되는 문제

2023.06.25 04:47 2,054 조회

데이커 여러분 안녕하세요, 제목과 같은 문제가 있어서 여러분들에게 의견과 조언을 구하고자 합니다.


현재 여러 가지 시도를 해 보고 있는데 계속 public 점수가 0.5가 나옵니다. 다행히 riverallzero님께서 코드를 공유해주셔서 여러가지 테스트를 해볼 수 있었습니다. 그럼에도, 제 코드는 계속 public 점수가 0.5를 벗어나지 못했습니다. 이에 riverallzero님 코드와 유사하게 파이토치 코드를 작성하여 돌려봤지만, 어떻게 해도 public 점수가 0.5에서 벗어나지 않습니다.


혹시 저와 같은 문제를 겪고 계신 분이 계신가요? 그리고 혹시 이 문제를 해결하신 분이 계시다면 조언을 얻고 싶습니다. 아래 제 코드 링크를 첨부합니다.

(https://colab.research.google.com/drive/1LnJ-0_k5Z5Vjr6gWsgNvm-d32nfOi5lc?usp=sharing)


읽어주셔서 감사합니다.

로그인이 필요합니다
0 / 1000
EISLab_이희원
2023.06.25 15:47

단순히 'first_party'와 'second_party'를 'facts'와 합친다고 해서 문제가 해결되지 않습니다.
저도 대회 기간 초반에 BERT나 roBERTa 등을 사용해 보았지만, 여전히 0.5에 점수가 고정되어 있어서,
ML 방법을 사용하니 점수가 약간 상승하였습니다.

ff
2023.06.25 16:13

희원님 답변 감사합니다. 희원님께서 첫 줄에 언급해 주신 방식은 코드 공유 해 주신 분이 그렇게 텍스트 전처리를 하셔서 그 방식 그대로 사용을 했습니다(물론 이것도 제 코드에서는 0.5를 뱉어내더군요...ㅎㅎ). 공유된 모델에 위 전처리 방식 대신 first_party를 plaintiff(원고)로, second_party를 defendant(피고)로 치환한 텍스트를 넣어도 보고, first_party, second_party 사이에 쉼표 대신 [SEP] 토큰을 넣어도 보고, token id를 통해 구분을 줘 보기도 했으나 위 방식을 제외하고는 모두 0.5로 나오더라고요... 내일 제출 횟수 초기화되면 마지막으로 시도해보고 그래도 안되면 제안해 주신 바와 같이 ML 방식도 적용해보도록 하겠습니다. 바쁜 시간 쪼개서 도움 주셔서 감사합니다!

EISLab_이희원
2023.06.25 16:18

넵 😄

DHugoKim
2023.06.25 23:46

저같은 경우는 제가 코드를 잘못 짠것이 아닌가 해서 모든 항목을 1이나 0으로 고정한 값도 제출해봤는데 값이 0.5에서 변하지 않았었습니다. 

ff
2023.06.26 17:14

답변 달아주셔서 감사합니다. 저는 혹시 test의 실제 값이 하나의 값으로만 되어있는게 아닐까 하는 생각이 들어 DHugoKim님과 같은 시도를 해보려고 했는데, 말씀해주신 바에 따르면 그것도 아닌가보네요...