코드 유사성 판단 시즌2 AI 경진대회

알고리즘 | 월간 데이콘 | NLP | 유사도 | Accuracy

  • moneyIcon Prize : 인증서
  • 345명 마감

Description

Dataset Info.

sample_train.csv [File] : 500개의 문제에 대한 코드 중에서 20000개의 Pair한 Sample로 추출한 데이터셋

│ ├ code1 : 유사성을 비교할 C++ 코드 1

│ ├ code2 : 유사성을 비교할 C++ 코드 2

│ └ similar : 0일 경우 서로 다른 문제를 해결하려는 코드, 1일 경우 서로 같은 문제를 해결하려는 코드

test.csv [File] : 학습 데이터에 없는 다른 문제에 대한 코드 중에서 595000개의 Pair 쌍으로 이루어진 테스트용 데이터셋

│ ├ pair_id : 각 pair 쌍에 부여되는 id 번호

│ ├ code1 : 유사성을 비교할 C++ 코드 1

│ └ code2 : 유사성을 비교할 C++ 코드 2

sample_submission.csv [File]

│ ├ pair_id : 각 pair 쌍에 부여되는 id 번호

│ └ similar : 0일 경우 서로 다른 문제를 해결하려는 코드, 1일 경우 서로 같은 문제를 해결하려는 코드

train_code [Folder] : 학습용으로 주어지는 500개의 문제에 대한 코드

├ problem001 : 문제 번호

│ ├ problem001_1.cpp : 문제(001)를 해결하려는 솔루션 코드 1

│ ├ problem001_2.cpp : 문제(001)를 해결하려는 솔루션 코드 2

│ └ problem001_...

├ problem002 : 문제 번호

│ ├ problem002_1.cpp : 문제(002)를 해결하려는 솔루션 코드 1

│ ├ problem002_2.cpp : 문제(002)를 해결하려는 솔루션 코드 2

│ └ problem002_...

└ ...


※ 제공드리는 데이터를 엑셀로 열람하는 경우, 데이터가 비정상적으로 보이는 현상이 발생할 수 있으니 반드시 Pandas패키지와 같은 데이터툴을 이용하여 열람부탁드립니다.

More Data