코드 유사성 판단 시즌2 AI 경진대회 수상자 인터뷰_베이지안 학파의 빈도주의 분석

코드 유사성 판단 시즌2 AI 경진대회

meister1378

2024.04.17 18:37 1,918 Views

축하합니다, 베이지안 학파의 빈도주의 분석님! 수상의 영광을 함께 나누게 되어 기쁩니다.

우승의 기쁨을 맛본 소감을 한마디로 표현해 주세요.

백명준 : 운 좋게 좋은 코드를 찾아서 적용시킨게 큰 도움이 되었네요

김동휘 : 짜릿하네요. 마지막 제출 당시 Public 순위를 보고 좌절했지만 Private 순위에선 4등을 달성한 것을 보고 정말 놀랐습니다

이경현: 감격스럽습니다. 저번 대회와는 다르게 제한된 자원과 시간이 주어졌기 때문에, 마지막에 시도한 방법이 맞아떨어질거라곤 생각도 못했습니다.

팀의 이야기를 들려주세요.

백명준: 고등학교 때 만난 친구들로 이루어진 팀입니다

김동휘: 고등학교 동창 셋이서 올해 초에 뭉쳐 두 번째로 참가한 대회였습니다. 고등학생때는 아무도 머신러닝에 관심이 생길 줄 몰랐는데 어쩌다보니 이 셋이서 참가한 두 대회 모두 수상하게 되었네요

이경현: 팀원 모두 고등학교 동창입니다. 그리고 세 명 모두 컴퓨터를 전공하고 싶어했는데,

이렇게 모여서 대회를 출전하고 우승을 거머쥘 수 있게 되어서 기쁩니다.

이렇게 쓰니 멋진 모험담 이야기 같네요. 앞으로도 이야기가 이어질 수 있었으면 좋겠습니다.

여러분을 돋보이게 한 특별한 점은 무엇인가요?

백명준: bert 모델을 다른 대회에서 써봤다는 점과, 경진대회 1에서 많은 인사이트를 얻었습니다.

김동휘: C++ 전처리가 다른 팀보다 구체적이었던 점, 최적화하지 않았던(못했던) 점인거같습니다. 팀원 중 한 명이 중학생때부터 C언어를 공부했는데 이 친구의 조언대로 전처리를 했더니 점수가 많이 향상됐었습니다. 시간이 많이 부족했던 저희 팀이 유효한 전처리를 할 수 있었던 이유입니다. 그리고 시간이 부족해서 튜닝이나 앙상블을 못 했는데, 이 점이 과적합을 방지해서 Private 순위가 높았던 것 같습니다.

이경현: 전처리 방법에 있다고 생각합니다. ai 의 성능을 향상시키는 여러 방법 중 전처리 말고도 다른 방법이 많습니다.

하지만 다른 방법은 제한된 자원과 시간으로 인해 시도하지 못하였습니다.

다른 상위권 팀은 어떤 방식으로 했는지 궁금하네요.

이번 성과의 비결은 무엇이라고 생각하시나요?

백명준: 샘플링 수를 늘린 것이 과적합을 방지했다고 생각합니다

김동휘: 앞서 말한 전처리와 의도치 않은 과적합 방지, 그리고 학습용 하드웨어 자원에 있어서 타협하지 않은 점인 것 같습니다. 이번 대회 주제 특성상 고성능 프로세서가 필요했는데 저희 팀은 runpod의 H100(Vram 80G)을 사용했습니다. 돈이 정말 많이 들었어요.

이경현: 앞에서 말씀드린 전처리와 팀원들의 밤낮을 가리지 않는 노력이라고 생각합니다.

제출 기한 마지막날 이었습니다. 모델 학습이 완료되기 까지의 남은 시간을 계산해보니 새벽 이었습니다.

필연적으로 팀원 중 한 명이 새벽에 학습이 끊이지 않고 잘 진행되는지 확인하고 업로드 해야하는 상황이었는데,

다행히 한 팀원이 잘 해내어주었기 때문에 저희가 우승할 수 있었다고 생각합니다.

대회 기간 중 특별히 기억에 남는 순간이 있다면 공유해 주세요.

백명준 : 전처리에 관한 토의를 할 때 너무 없애거나 너무 적게 없애면 모델의 성능이 하락하는 것을 알게되어 열심히 조절하던게 생각이 납니다

김동휘 : 이젠 더는 추가로 학습을 진행할 시간이 남아있지 않았던 대회 종료 당일 새벽에 저희는 밤새 기다렸던 마지막 예측 결과를 제출했습니다. 그리고 확인한 Public 순위는 입상권 밖이었습니다. 그렇게 실망한 채로 자고 일어나보니 Private 순위가 4위였던 것을 확인했던 그 순간 정말 기뻤습니다. 이 순간이 가장 기억에 남네요.

이경현: 처음엔 모델의 작동 방식을 잘 파악하지 못하였습니다.

때문에 어떻게 전처리 해야할지 몰랐는데, 가설을 세우고 그 가설이 들어맞았을 때 정말 기뻤습니다

데이터 분석이나 학습 과정에서의 나만의 비법이 있다면요?

백명준: 구글링을 많이 해봐야한다고 생각합니다

김동휘: 주어진 데이터에서 가장 좋은 성적을 내는 모델을 찾는 것입니다. 아무리 전처리를 열심히 하고 하이퍼 파라미터를 튜닝해도 모델이 데이터를 잘 소화하지 못한다면 대충 전처리하고 좋은 모델을 사용한 것보다 정확도가 낮을 때가 많습니다. 때문에 데이터와 목적에 가장 적합한 모델을 찾는 단계에 실제로 많은 시간을 투자합니다.

이경현: 역시 좋은 모델을 찾는 것입니다. 물론 전처리나 여러 기법이 중요합니다.

하지만 그러한 방법들을 모델이 제대로 받아주지 못하는 경우가 많았습니다

수상을 기념하여 빌 수 있는 한 가지 소원이 있다면?

백명준: 모두 좋은 성과가 나왔으면 좋겠네요

김동휘: 이번 대회에 사용했던 H100 GPU가 가지고싶네요

이경현: 좋은 컴퓨터가 좋은 성적을 만든다는 사실을 알았습니다.

H100 하나 아니, 두 개만 가지고 싶네요.

앞으로의 목표와 꿈을 말씀해 주세요.

백명준: 좋은 곳에 취업하고 싶습니다 ㅎㅎ

김동휘: 더 많은 대회에 참가해서 머신러닝 실력을 쌓으며 수상하고 싶습니다

이경현: Ai 도 재밌고 배우는 재미가 있지만, 전 역시 게임을 만들어보고 싶네요.

데이콘 커뮤니티에 바라는 점이 있다면 무엇인가요?