📨 [뉴스레터 2호] 데이콘 뉴스레터, 또 왔습니다!

2023.03.02 16:45 1,268 Views

안녕하세요, 데이커 여러분! 2주 동안 잘 지내셨나요? 지각쟁이 뉴스레터가 도착했습니다. 💦

조금 더 알차게 내용을 구성하고픈 욕심에 월요일로 예정했던 뉴스레터를 조금 늦게 발송드리게 되었어요!

기다리셨던 데이커분들이 있다면 양해 부탁드립니다! 🙏


더불어 고민 끝에, 앞으로 데이콘 뉴스레터는 2주에 한 번, 수요일에 발송하는 것으로 주기를 변경하게 되었어요!

이후로는 꼭 주기를 지켜 발송드릴 것을 약속드립니다! 🤙


날이 좀 따뜻한 것 같다가도 아침저녁엔 바람이 쌀쌀해 롱패딩으로 청기백기를 하고 있는 요즘인데요. 🏳️

환절기 마지막까지 방심 금물! 늦은 만큼 알찬 데이콘 소식으로 꽉 채운 이번 뉴스레터 2호도 함께 시작해 보시죠!


> 지난 뉴스레터는 바로 여기!

📨 [뉴스레터 1호] 데이콘의 새로운 시도, 뉴스레터!


데이콘의 뉴스레터는 2주에 한 번, 수요일에 발송됩니다!
뉴스레터를 메일함으로 곧장 받아 보고 싶다면, 
‘내 계정 관리’ 하단, 마케팅 정보 수신 동의에 체크해 주세요!


🕺 수상자 솔루션

문장 유형 분류 AI 경진대회


이번 뉴스레터에서는 지난 연말 진행되었던 ‘문장 유형 분류 AI 경진대회’에서 5위를 차지한 박상하_ai_nlp 팀의 솔루션을 살펴보겠습니다. 👀

🔍 여기서 잠깐,

최근 IT업계 최대 화두는 무엇일까요? 바로 챗GPT(ChatGPT)죠! 🤖

지난 12월 OpenAI에서 공개한 챗GPT는 인공지능 채팅 서비스로, 단 5일 만에 사용자 100만 명을 달성했다고 하는데요! 사용자의 질문에 대해 마치 사람과 대화하는 것 같은 답변을 해서 전 세계적으로 주목받고 있습니다.

이처럼, 컴퓨터가 사람의 언어를 이해하고 분석할 수 있는 기술을 ‘자연어 처리(Natural Language Processing, NLP)’라고 하는데요. NLP는 챗봇 서비스 외에도 음성 인식, 내용 요약, 언어 번역, 인간의 감정 분석, 텍스트 분류 작업(스팸 메일 분류, 뉴스 기사 카테고리 분류) 등 다방면으로 사용되는 기술입니다.

이번에 진행된 ‘문장 유형 분류 AI 경진대회’는 바로 이러한 NLP 기술과 연관되는 문장 분류 AI 모델을 개발해 한국어 인공지능 기술 고도화의 발판을 마련하고자 했습니다!



1. 문제 정의 및 목표 설정

본 대회의 목표를 확인하고, 참가자 개인의 목표를 설정하였습니다.

박상하_ai_nlp 팀은 이번 대회의 의의를 “불균형이 심한 데이터가 가지는 제한점을 어떻게 극복하고, 모델 성능을 향상시킬 것인가?”라고 생각했습니다.


2. EDA(탐색적 데이터 분석)

문장의 길이와 4개 카테고리 각각의 분포를 파악합니다. 이 과정에서 Character 길이는 대략 200글자 이내이며, Klue Roberta 모델 기준 토큰 길이가 100개 이하인 것을 확인하였습니다.

4개의 카테고리에서 모두 불균형이 존재하며, ‘유형’, ‘극성’ 카테고리에서 특히 심한 것을 알게 되었습니다.


3. 데이터 증강 & 샘플링

데이터 수가 minimum(20개) 이하면 데이터 증강(Data Augmentation)을, maximum(3000개) 이상이면 데이터의 80%를 임의로 선택(Under Sampling)하여 사용합니다.

증강 방법으로는 구두점 삽입, 문장 순서 역전, 문장 내 임의 단어 삭제 및 변환을 사용했으며, 불균형한 데이터로 인한 편향(Bias)을 방지하고자 매 Batch에 비율을 고려한 데이터(Stratified Sampling)를 입력했습니다.


4-1. 모델 설계

MLM만을 이용해서 사전학습이 된 Klue Roberta 모델의 Sequence에 더 많은 정보를 담기 위해서 CLS, EOS에 대한 Feature를 concat 하도록 설계했습니다.

Sequence Output을 Hidden Layer, Dropout Layer, Tanh Activation Layer를 통과한 결과와 더해서 나머지 Classification head를 진행하였습니다.


4-2. 모델 학습

Dropout은 모델의 일반화 성능을 향상시키는 좋은 정규화 방법이지만, 기 학습된 모델의 추론 단계에서 Dropout의 Masking으로 인한 간극이 존재한다는 단점이 있습니다.

이에 Batch를 두 번 입력하고, KL-Divergence Loss를 Loss Function에 추가하여 모델 학습을 진행함으로써 단점도 보완하고, 같은 입력이라도 Dropout의 Masking에 의해 결과에 차이가 생기지 않도록 유도하였습니다.


5. 앙상블

Data Augmentation, Under Sampling 과정에서 Seed 설정에 따라 학습 결과가 달라짐을 확인하여, Seed를 달리한 5개 모델의 Soft Voting으로 최종 결과물을 얻었습니다.

그 결과, Private Score 기준 Weighted F1 0.75506으로 5위를 기록하였습니다.



이번 대회에서 공유된 코드공유를 보면, 많은 참가자들이 여러 모델의 결과를 조합하여 최종 결과를 도출해 내는 앙상블(Ensemble) 기법을 적용한 것을 알 수 있는데요.

다양한 종류의 사전 학습 모델들을 사용한 다른 참가자들과는 달리, 하나의 사전 학습 모델을 가지고 Seed를 달리하여 결과를 얻은 점이 박상하_ai_nlp 팀만의 차별점이라고 생각되어 소개해 드렸습니다! 👏


>  더 많은 참가자들의 솔루션이 궁금하다면? <




📣 데이스쿨 오프라인이 찾아옵니다!

오직 데이콘에서만 가능한, 데이콘만의 오프라인 교육을 경험하세요!




🎊 특별 인터뷰

성장의 정석, 이상우(Stay) 데이커


데이콘 뉴스레터, 첫 특별 인터뷰의 주인공은 ‘유전체 정보 품종 분류 AI 경진대회’에서 1위를 차지한 국민대민쑤 팀의 이상우 데이커입니다! 👏

상우 님은 데이콘 경진대회에 약 2년간 꾸준히 참여하면서 차근차근 실력을 높여 마침내 1위까지 오른, 그야말로 ‘성장의 정석’입니다! 🏋️

지금도 우승을 꿈꾸며 여러 경진대회에 참여해 공부하고 있는 데이커분들이 많으실 텐데요!

이번 상우 님의 이야기를 통해 지금의 노력이 결실을 맺으리라는 자신을 얻고, 다른 많은 데이커들도 함께 달리고 있음을 기억하셨으면 좋겠습니다!! 🤼‍♂️



🎙 무언가를 ‘잘’ 하는 것보다 어려운 일은 어떻게 보면 ‘꾸준히’ 하는 것인데요! 2년간 기초에서부터 시작해 포기하지 않고 성장을 이뤄내신 것이 정말 대단합니다! 본인을 계속해서 노력하게 만드는 동력이 있을까요?


저 자신을 계속해서 노력하게 만드는 동력이 있다면 데이콘 경진대회나 다른 인공지능 및 데이터 분석 경진대회를 참여하는 것에 대한 스스로의 흥미라고 생각합니다.

데이콘 경진대회를 예시로 들자면, 리더보드 상에서 자신의 위치를 알 수 있는 만큼 코드 공유나 다른 성능 향상 기법들을 찾아보면서 실제로 적용해 리더보드에서 순위 상승을 이뤄 냈을 때 얻는 성취감이 이 분야에 대한 흥미를 느끼게 해서, 계속해서 스스로 무엇인가를 성취하기 위해 노력하게끔 만드는 것 같습니다.



🎙 그간 데이콘에서 다양한 대회를 참가해 오셨을 텐데요! 참여할 대회를 고르는 기준이 있으신가요?


물론, 참여할 경진대회를 우선적으로 알아볼 때 상금이 가장 눈에 들어오는 것은 사실입니다..ㅎㅎ 하지만 저는 대체로 데이콘 측에서 제공해 주는 베이스라인 코드를 보고 그 대회에 대한 참여를 결정해 왔던 것 같습니다.

베이스라인에 대한 전반적인 코드 이해가 가능한지, 추가적으로 적용해 볼 만한 기법들이 떠오르는지 등 베이스라인 코드에 더하여 제가 시도해 볼 수 있는 방법들이 많다고 판단되면 참여를 결정했던 것 같습니다.



🎙 데이터 분석 공부를 하며 짜릿한 순간이나, 이 분야를 선택하길 잘했다고 생각하는 순간이 있다면요?


데이터 분석 공부를 하면서, 데이터 분석을 하기 위해선 물론 분석자의 역량도 중요하지만, 분석 대상에 대한 도메인 지식도 중요하다는 사실을 알게 되었습니다.

저는 이렇게 도메인 지식들에 대해 조사하거나 관련된 논문들을 읽어 보고, 그 내용들을 바탕으로 유의미한 인사이트를 도출하거나 또는 인공지능 모델의 성능 향상을 이루어 냈을 때 가장 희열을 느끼는 것 같습니다.

이런 순간들이 반복되면서 데이터 분석뿐만 아니라 다른 분야의 지식들도 쌓을 수 있고 접해 볼 수 있다는 점이 제가 데이터 분석 일을 한다는 것에 대한 자부심을 느끼게 하는 것 같습니다.



🎙 마지막으로, 상우 님과 비슷하게 데이콘 대회를 통해 성장을 꿈꾸는 데이커분들에게 격려의 말을 부탁드립니다! (Feat. 야, 너도 할 수 있어)


경진대회에 참여하다 보면 자기가 고안한 참신한 방법이 성능 향상이나 이렇다 할 인사이트 도출을 이루어 내지 못할 경우가 많을 거라고 생각합니다.

저도 초반에 데이콘 경진대회에 참여하면서 많은 실패와 좌절을 경험해 본 결과, 실패했다고 포기하고 놓아버리는 것보다 다른 방법론이나 도메인 지식 습득, 논문 참고 등을 끝까지 시도하여 본 대회에서 좋은 결과를 얻을 수 있었습니다.

데이커분들 모두 모델의 성능 향상이 되지 않거나 분석에 차질이 생기더라도 끝까지 포기하지 마시고 자신이 할 수 있는 최선을 쏟아부으신다면 꼭 언젠가 머지않아 좋은 결과 얻으실 수 있을 것이라 생각합니다.

모두 미래 데이콘 챌린저를 목표로 같이 화이팅 합시다!


참여했던 대회 중 가장 기억에 남는 대회,

상금💰은 어디에 사용했는지 등등

더 많은 이야기가 궁금하다면, 특별 인터뷰 풀버전을 확인하세요!


> 데이콘 수상자들의 이야기는 바로 여기! <




🔍 여기서 잠깐,

상우 님은 앞선 우승자 인터뷰에서 섬세하고 꼼꼼한 답변으로 데이콘 팀에 많은 영감을 주셨어요!

특히 ‘초보자들도 쉽게 접근하고 경험해 볼 수 있는 테이블 데이터 경진대회가 자주 열렸으면 좋겠다’는 희망 사항을 함께 전해 주셨는데요.


관련해서 데이콘에서 2주마다 정기적으로 열리는 데이콘 Basic 대회를 소개합니다!

데이콘 베이직은 초보 데이커들도 쉽게 참여해 볼 수 있는 경진대회로, 주로 정형(테이블) 데이터를 다룹니다!

베이직 대회는 데이콘 메인 화면 하단에서 확인하실 수 있습니다.



이번 ‘풍력 발전량 예측 베이직 대회’는 아쉽게도 2월 27일자로 종료되었지만, 2주 뒤에 또 새로운 베이직 대회가 개최될 예정이니, 많은 기대 부탁드려요! 🙌

(데이콘 베이직은 대회가 종료되면 연습해 볼 수 없어요! 🥲 관심이 생겼다면 바로 참여해 보세요!)



데이크루 4기, pick me! 🔥


데이크루에 대해 알고 계신 데이커, 손! ✋

데이크루는 바로 데이콘 서포터즈인데요! 현재 활동하고 있는 데이크루는 4기로, 각자 팀을 이뤄 그간 데이콘에서 열렸던 대회 데이터를 기반으로 문제 기반 학습(PBL) 콘텐츠를 제작했어요!

이렇게 만들어진 콘텐츠는 데이커분들의 투표를 거쳐 최종 순위가 결정됩니다!

과연 어떤 데이터로, 어떤 콘텐츠가 나왔을지 궁금하지 않으신가요?


2023년 2월 25일 (일) 10:00 ~ 2023년 3월 3일 (금) 23:59


투표 기간이 얼마 남지 않았어요!

응원하는 팀이 있다면 지금 바로 ‘좋아요👍’를 눌러 투표하세요!

> 투표하러 가기! <




📢 업데이트 소식


1. 게시판이… 늘어났어?

토크 게시판이 세분화되었어요!

자유, 팀원 모집, 정보까지😎 목적에 따라 게시글을 나눠 쓰세요!


2. 파이썬 왕초보 모여라!

🐍파이썬 첫걸음 프로젝트가 오픈되었습니다!




에디터 한마디 💬

짠! 데이콘 사무실 문을 열면, 이렇게 날짜와 함께 그날의 아무 말(!)이 써 있는데요. 😁

데이커 여러분도 새로 생긴 자유 게시판에 그날그날 생각 나는 말들이나 고민, 아무 말 등등을 자유롭게 올려 주시면 어떨까요?

더불어 뉴스레터에 대한 의견이나 감상이 있다면, 자유 게시판에 올라가는 뉴스레터 게시글에 댓글을 달아 주세요!

그럼, 3월 15일 뉴스레터 3호로 다시 만나요! 👋