분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
FSI AIxData Challenge 2024 : 생성 AI
FSI AIxData Challenge 2024 수상자 인터뷰 - 1위 GSDS팀
축하합니다, GSDS님! 수상의 영광을 함께 나누게 되어 기쁩니다.
GSDS팀원: 신경진(bluekj), 이다현(네오방구), 유현수(꼬북칩스누피), 문지유(함소화)
우승의 기쁨을 맛본 소감을 한마디로 표현해 주세요.
신경진: 예상치 못한 큰 상을 받아 정말 행복합니다!
이다현: 분류 모델링 시 흔히 발생할 수 있는 데이터 불균형 문제에 대해, 부족한 데이터 샘플을 딥러닝 방식을 활용하여 해결하는 과정에서 CTGAN 등과 같이 새로운 모델들을 배울 수 있던 대회였습니다. 대회 과정에서 많은 모델 실험을 했었는데, 노력한 과정만큼 좋은 성과를 거둘 수 있어 감사한 것 같습니다.
유현수: 방학동안 다들 바쁜 와중에도 공모전에 참가해서 대상이라는 좋은 결과를 얻게 되어 매우 기쁩니다!
문지유: 데이콘 대회에는 처음 참여했는데 대상이라는 결과를 얻게 되어 너무 뿌듯하고 기쁩니다.
팀의 이야기를 들려주세요.
신경진: 저희는 카이스트 데이터사이언스 대학원(GSDS) 석사과정 학생들로 구성된 GSDS 팀입니다.
이다현: 과 동기들끼리 출전한 대회였는데, 각 평가 과정마다 서로 응원해주며 즐겁게 대회에 참여했던 것 같습니다.
유현수: 저희는 같은 카이스트 데이터사이언스 대학원(GSDS) 석사생들로 구성된 팀입니다. 동기들끼리 방학동안 같이 공모전에 참가하게 되었습니다.
문지유: 저희는 카이스트 데이터사이이언스 대학원 소속 석사생들입니다. 공모전 기간동안 함께 하며 서로 응원해주고 더 친해질 수 있는 기회가 된 거 같습니다.
여러분을 돋보이게 한 특별한 점은 무엇인가요?
신경진: 의미 있는 column들을 추가한 Feature Engineering이 돋보였고, 이상치를 제거하지 않고 새로운 컬럼을 생성한 것도 차별화 요소였습니다.
이다현: 모델 학습시 데이터 불균형을 해결하기 위해 오버샘플링과 GAN 기반 모델링에 집중했고, 더불어 피처 엔지니어링 과정에서도 최대한 금융 지식 기반으로 유용한 피처를 생성하고자 노력했습니다.
유현수: 아무래도 데이터 전처리 과정에 공을 들였던 것 같습니다. 주어진 데이터의 컬럼 자체가 굉장히 많았기 때문에 각각의 컬럼들을 활용한 의미있는 파생변수를 추출해낸 것이 큰 역할을 했다고 생각합니다.
문지유: 대회 필수 요건이였던 생성모델의 이해도라고 생각합니다. 저희 팀원들은 tabular데이터에 사용되는 여러 생성모델의 논문 등을 참고하며 다양한 모델들을 탐구했고, 대회 데이터에 적절한 생성모델을 선정할 수 있었던 것 같습니다.
이번 성과의 비결은 무엇이라고 생각하시나요?
신경진: 서로의 아이디어를 공유하며 하나의 목표를 위해 함께 노력한 것이 주효했다고 생각합니다.
이다현: 학습 과정에서 과적합이 최대한 발생하지 않고 일반화된 성능을 유지할 수 있도록 고민하고 관련 방법론들을 실험했던 것이 효율적으로 역할 분담을 하는데 도움이 되었던 것 같습니다.
유현수: 팀원들과의 소통이 이번 대회에서 좋은 결과를 얻을 수 있었던 비결이라고 생각합니다. 매주 팀원들과 회의를 하면서 대회 마지막 날까지 포기하지 않고 꾸준히 진행해왔기 때문에 좋은 결과를 얻을 수 있었다고 생각합니다!
문지유: 효율적인 역할 분담이라고 생각합니다. 대회를 진행하며 팀원들마다 잘하고 자신 있는 영역들이 있었습니다. 이에 맞게 역할 분담을 통해 각자 맡은 일에서 성과를 내면서도 꾸준한 회의를 통해 지속적으로 문제점을 해결해 나간 점이 비결인 것 같습니다.
대회 기간 중 특별히 기억에 남는 순간이 있다면 공유해 주세요.
신경진: 데이터셋 생성과 분류 모델 전처리 등 각 진행 단계에서 성능이 크게 향상될 때마다 너무 기뻤고, 기억에 오래 남습니다.
이다현: 데이터셋을 처음 받아보고 칼럼 수가 매우 많아서 데이터 해석을 어떻게 접근해야 할지 고민했던 순간이 기억에 남는 것 같습니다. 팀원들과 회의하며 결국 집요한 데이터 전처리 과정을 통해 데이터 정보와 구성에 대한 이해도를 높인 것이 제일 기억에 남습니다.
유현수: 대회 마감 전날 최종모델을 제출할 때, 어떤 모델로 제출할지 팀원들과 새벽까지 고민했던 순간이 기억에 많이 납니다.
문지유: Public Score가 처음으로 0.8을 넘었을때가 기억에 남습니다. 0.8 달성이 저희 팀에 우선 목표였기 때문에 그 순간이 기억이 많이 납니다.
데이터 분석이나 학습 과정에서의 나만의 비법이 있다면요?
신경진: 데이터의 의미와 특성을 먼저 파악한 후에 그에 맞는 분석 및 모델링 과정을 진행하는 것이 매우 중요하다고 생각합니다.
이다현: 정형 데이터 분석의 핵심은 데이터 생성과정에 대한 명확한 이해를 바탕으로, 데이터 전처리 과정과 피처 엔지니어링 단계에서 성능 향상을 가져오는 것이라 생각합니다. 또한 CTGAN,TGAN 등 정형 데이터 증강 방법을 적절히 활용해 부족한 데이터를 보완하는 것 또한 이번 대회를 통해 배울 수 있었습니다.
유현수: 데이터의 특성을 파악하기 위한 EDA과정이 중요하다고 생각합니다.
문지유: Task 대한 이해도 또한 중요한 것 같습니다. 금융 이상 거래를 탐지해야 했기에 이상치 처리에 있어 삭제나 변환보다는 Binary 변수를 추가하는 등 task를 명확히 이해하고자 했습니다.
수상을 기념하여 빌 수 있는 한 가지 소원이 있다면?
신경진: 항상 행복하게 해주세요!!!
이다현: 이번 대회의 경험을 바탕으로, 실제 데이터 사이언스 업무를 진행할 때 데이터 불균형 등 비슷한 상황에 대해 잘 적용해볼 수 있으면 좋겠네요.
유현수: 대학원 동기, 선배들 다 잘되게 해주세요!
문지유: 해당 경험을 바탕으로 다양한 도메인의 데이터와 다양한 task를 해결하며 데이터 사이언스의 역량을 키워나가고 싶습니다.
앞으로의 목표와 꿈을 말씀해 주세요.
신경진: 생성형 AI 연구를 지속하여 훌륭한 AI 연구자로 성장하고 싶습니다.
이다현: 전문성 있는 금융 데이터 사이언티스트로 성장해 현업에 기여하고, 같은 데이터 사이언티스트와 소통해 데이콘과 같은 커뮤니티에 좋은 영향력을 펼칠 수 있으면 좋을 것 같습니다.
유현수: 데이터 사이언티스트로서 금융업계에 종사하고 싶습니다.
문지유: 전문성있는 데이터사이언스로 성장하고 싶습니다.
데이콘 커뮤니티에 바라는 점이 있다면 무엇인가요?
신경진: 앞으로도 다양한 분야의 대회가 많이 열리기를 바랍니다.
이다현: 현 대회에서는 2개의 평가 지표에 대해 동시에 스코어가 집계되어, 생성형 모델과 분류 모델에 대한 성능 각각을 파악하기 어려워 모델 실험의 비중을 할당하는 것이 다소 어려웠습니다. 본 대회와 유사한 대회가 또 있다면, 개별 지표에 대해 자세한 성능 결과를 나누어 제시해주시면 실험 과정에서 더 효율적인 방식으로 접근할 수 있을 것 같습니다.
유현수: Graph Neural Network와 같은 Graph data를 다루는 task도 많이 생겼으면 좋겠습니다!
문지유: 앞으로도 여러 기업과 연계해 실제 현업에서의 데이터를 다뤄볼 수 있는 대회들이 많이 열렸으면 좋겠습니다.
DACON Co.,Ltd | CEO Kookjin Kim | 699-81-01021
Mail-order-sales Registration Number: 2021-서울영등포-1704
Business Providing Employment Information Number: J1204020250004
#901, Eunhaeng-ro 3, Yeongdeungpo-gu, Seoul 07237
E-mail dacon@dacon.io |
Tel. 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved