월간 데이콘 코드 유사성 판단 AI 경진대회

코드 유사성 판단 AI 경진대회 수상자 인터뷰 _ beretta92x

2022.09.21 11:19 632 조회

코드 유사성 판단 AI 경진대회

🎉 Team beretta92x 님, 수상을 진심으로 축하합니다. 🎉


🏆 김민석, 김경민 님

 

🎙우승팀 중 한 팀이 되었는데요, 수상을 진심으로 축하드립니다. 수상 소감 부탁드립니다.

김민석

수상하게 되어서 매우 기쁩니다! 모델 성능 향상을 위해 시간이 날때마다 열심히 실험을 진행한 보람이 있었네요. 이번 기회로 코드와 자연어를 이해하는 CodeBERT와 GraphCodeBERT 그리고 AlphaCode 프로젝트에 대해서도 공부할 수 있어서 매우 즐거웠습니다. 특히나 저는 이전에 알고리즘 대회 참가 경험도 꽤 있어서 코딩 문제를 해결할 수 있는 AI에 대해서 읽어보는게 재밌었습니다.

김경민

데이콘에 참가할 수 있어서 영광이었습니다. 단순히 저희의 노력만으로는 1등을 할 수 없었으며, 모든 참여자들의 다양한 팁과 소스를 공유해준 덕분에 저희가 좋은 성적을 거둘 수 있었던 것 같습니다.


🎙데이터 분석에 관심을 가지게 된 계기나 데이터 분석 일을 하게 된 이유가 있다면 무엇인가요?

김민석

돈을 벌기 위해서 투자봇에 대해서 연구하다가 온라인 컨벡스 최적화와 강화학습을 접하면서 자연스럽게 머신러닝을 공부하게 되었습니다. 머신러닝에 대해서 공부하고 실습하다보니 데이터 분석에도 관심을 갖게 되었습니다. 데이터 중에서도 시계열 데이터와 텍스트 데이터에 특히나 관심을 많이 갖게 되었습니다. 차트 데이터와 뉴스 데이터로부터 기계가 특정 자산의 매매 신호를 효율적으로 포착할 수 있다는 점이 흥미롭다고 생각했습니다. 그래서 자연스럽게 텍스트 분석, NLP 쪽으로 공부를 많이 하게 되었습니다. 학교에서도 관련 수업을 들어보고 결국 이쪽으로 커리어를 결정하게 되었습니다.

김경민

데이터 분석 일을 전문적으로 하지는 않고, 단지 저는 더욱 좋은 AI 모델을 만들기 위해 데이터 분석을 합니다. 모델 생성을 위해서는 데이터 분석이 가장 중요한 단계라 생각합니다.


🎙데이콘 경진대회에 참여한 동기가 있나요?

김민석

원래 다양한 분야의 대회에 참가해서 실력이 뛰어난 사람들이랑 경쟁하는걸 즐기는 성격입니다. 특히나 데이콘이나 캐글같은 AI 경진대회에서는 실생활에 적용 가능하거나 해결할 필요가 있는 실용적인 문제들을 데이터분석과 머신러닝을 이용해서 접근해볼 수 있다는점에서 매우 관심이 많습니다. 거기다가 데이콘은 양질의 데이터도 주최측에서 미리 제공해주시기 때문에, 데이터 수집에 큰 신경을 쓰지 않고 모델링에 집중할 수 있어서 좋기도 합니다.

김경민

저와 같이 작업했던 팀원 분을 통해서 데이콘 경진대회를 알게되었고, 처음엔 호기심에 참여하게 됐던것 같습니다. :)


🎙학업, 현업, 일상생활 등과 관련해서 대회 중 느낀 점이 있나요?

김민석

이전에 특허 문서들을 유사도 기반으로 랭킹하는 모델을 개발하면서, cross encoder와 bi-encoder 기반 모델들을 많이 실험했었습니다. 때마침 코드 유사도 판단 경진대회가 열린걸 보고, 특허쪽에서 활용하고 있는 방법들을 적용해볼 수 있겠다고 생각했었습니다. 대회를 진행하면서 시도해보고 싶은 방법들이 더 많았는데 (예를들어, 긴 코드 문자열을 truncation말고 hierarchical한 방식으로 처리하는 방법 - PARADE라는 논문 참고) 시간상의 문제로 시도해보지 못한게 아쉽네요. 유사도 판단 관련 태스크를 진행해본 경험이 있어서 hard negative pair의 중요성과 어떻게 시작해야하는지 어느정도 감이 있어서 대회를 참여하는데 도움이 된 것 같습니다.

김경민

아무래도 학업과 같이 병행하기에는 다소 물리적인 시간이 부족하긴 했습니다. 혼자서는 못했을 것 같지만, 든든한 팀원분과 함께 할 수 있어서 무사히 마무리할 수 있었던 것 같습니다.


🎙대회에 참여 중 어려운 점이 있었나요? (일정 관리, 분석 방법론 등)

김민석

일단은 전처리 이후에 데이터 사이즈가 매우 컸기 때문에 같은 팀원인 경민씨한테 데이터를 전달하는 과정도 시간이 꽤 걸렸습니다. 더군다나, 제가 보유하고 있는 V100 GPU 한장으로는 학습이 오래 걸려서, 외부 자원 (AWS, Paperspace)를 사용할까 생각했는데 다행이도 경민씨가 사용 가능하신 A6000 GPU들로 학습을 잘 끝낼 수 있었습니다. 최근에 회사 일, 개인 프로젝트, 논문 작업, 외주 관련일들도 많아서 대회 작업은 주로 모든 일정이 끝나면 밤늦게 진행을 많이 했었는데 피곤하지 않고 오히려 즐거웠습니다. 대회를 더 일찍 조인했었다면 더 많은 관련 연구와 실험을 해볼 수 있었을 것 같습니다.

김경민

모델 학습과 데이터의 크기로 인해 일정 관리가 좀 힘들었던 것 같습니다. 실제로 모델 학습에 하루 정도의 시간이 소요됐으며, 데이터 크기로 인해 전처리 시간도 한 번에 몇 시간씩 걸렸습니다. 좀 더 시간이 있었더라면 다양한 방법으로 시도해볼 수 있었을 것 같습니다.

 

 

 

🎙데이콘에 기대사항이 있나요?

김민석

데이콘은 한국의 캐글이라고 생각합니다. 국내 최고의 AI 경진대회 플랫폼인 것 같습니다. 앞으로도 관심이 가는 대회가 주최된다면 계속 참여하고 다른 실력자들과도 경쟁하면서 계속 성장해나가고 싶습니다. 항상 좋은 대회 개최해주셔서 감사합니다 :)

 

 

 

beretta92x 팀 1등 코드 공유 보러가기