월간 데이콘 코드 유사성 판단 AI 경진대회

알고리즘 | NLP | 분류 | 유사성 | Accuracy

  • moneyIcon 상금 : 총 600만 원
  • 891명 마감

 

[Private 24th / 0.96665] Random Sampling + Graphcodebert

비회원
2022.06.10 23:23 1,495 조회 language

좋은 대회 열어주셔서 감사드립니다.

참조 코드로는 '청소'님,  'arethusa'님의 코드를 참조하였습니다. 공유 감사드립니다.
코드 파일을 데이터로 만드는 과정에서 pair를 구성할 때 무작위적인 데이터 생성이 전체 데이터의 특성을 반영할 수 있다고 생각하여 특정 비율로 Random sampling을 진행했습니다. (구체적인 과정은 마크다운으로 적어놓았습니다.)
모델로는 Microsoft graphcodebert를 사용하였고 fold ensemble을 진행했습니다. 더 많은 시도를 해보지 못해서 아쉬움이 남네요. 단순 공유 목적으로 공유합니다! 

감사합니다.

코드
로그인이 필요합니다
0 / 1000
도비콘
2022.06.10 23:24

수고하셨습니다.

비회원
2022.06.10 23:30

감사합니다:)

TREX99
2022.06.11 10:20

삭제된 댓글입니다

비회원
2022.06.11 00:36

하하 그렇죠 ㅎㅎ..  여러가지 시도를 해보지 못한 것 중 하나가 어느 정도의 데이터가 학습에 도움이 될지였는데 전 그래서 단순히 최소한 test 데이터 정도는 있어야 도움이 되지 않을까라고 생각했고 제가 생각했던 것들을 공유하고 싶었어요!
좋은 지적 감사합니다 :)