📨 [뉴스레터 6호] 뉴스레터 6호, 등장!

2023.04.28 17:23 587 Views

데이커 여러분, 2주 동안 잘 지내셨나요? 어제오늘 비가 내려서인지 다시 기온이 확 떨어졌습니다.

일교차가 크게 벌어져서인지 요즘 들어 데이콘 팀에도 감기로 고생하는 분들이 많은데요! 🤧

2023년의 중반으로 들어서고 있는 이때, 지치지 않고 달리기 위해서는 건강 관리가 필수입니다!

따뜻한 물 많이 마시기 🍵, 겉옷 꼭 챙기기 👚 잊지 마세요!


수상자 솔루션과 특별 인터뷰, 에세이, 그리고 데이콘 소식과 에디터 한마디까지 알차게 담은 6호 뉴스레터, 활기차게 시작해 보시죠!





지난 뉴스레터는 바로 여기! 👇

📨 [뉴스레터 1호] 데이콘의 새로운 시도, 뉴스레터!

📨 [뉴스레터 2호] 데이콘 뉴스레터, 또 왔습니다!

📨 [뉴스레터 3호] 3월에 보내는 3호 뉴스레터! 🌸

📨 [뉴스레터 4호] 봄과 함께 찾아온 4호 뉴스레터!

📨 [뉴스레터 5호] 더 강력해져서 돌아온 5호 뉴스레터!



데이콘의 뉴스레터는 2주에 한 번, 수요일에 발송됩니다!


이번 뉴스레터 미리보기 👀

  • 수상자 솔루션(‘월간 데이콘 영어 음성 국적 분류 AI 경진대회’)
  • 특별 인터뷰(‘LG 오프라인 해커톤 참가팀’)
  • 데이콘 에세이(‘기후 변화와 AI’)




🗣️ 수상자 솔루션

월간 데이콘 영어 음성 국적 분류 AI 경진대회

음성 분류

이번 뉴스레터에서 소개해 드릴 수상자 솔루션은 2021년 5월 진행되었던 ‘월간 데이콘 영어 음성 국적 분류 AI 경진대회’입니다!


🔍 여기서 잠깐,

음성 인식 기술은 이제 우리 생활에서 당연하고, 또 중요한 한 부분을 차지하게 되었는데요! 우리가 쉽게 접하는 음성 검색, 음성 번역은 물론이고, 음성 분석을 통한 감정 분류, 화자 분류, 음성 기반 보안 기술 등 다양한 부분에서 적극적으로 활용될 수 있습니다.

이번 대회의 목적은 다국어 음성 데이터셋을 학습하여 영어의 Accent를 분류하는 알고리즘을 개발하는 것으로, 데이터셋에는 6개의 국적(Africa, Australia, Canada, England, Hongkong, US)을 가진 사람의 목소리(음성)가 존재합니다.

다국어 음성 분류 AI는 국경을 넘어 다양한 문화와 언어를 이해하는 데에도 도움이 될 수 있다는 점에서 그 중요성이 더욱 부각되고 있는데요! 그럼 본격적으로 어떤 솔루션이 나왔는지, Private 1위 최정명 님의 코드를 살펴 보겠습니다!




1. 다양한 해상력의 Mel spectrogram 생성

Mel spectrogram

Mel spectrogram은 오디오 신호를 주파수 대역으로  나누어 표현한 것으로, 각각의 시간 프레임에서 해당 주파수 대역의 에너지를 이미지 데이터와 유사한 형태로 나타냅니다.

Librosa 라이브러리의 ‘melspectrogram’ 함수에서 ‘win_length’ 매개변수는 STFT(Short-Time Fourier Transform) 계산에 사용되는 윈도우의 길이를 결정하는데요. 윈도우의 길이가 길수록 주파수 분해능(resolution)은 좋아지지만 시간 분해능이 떨어지고, 반대로 윈도우의 길이가 짧아질수록 시간 분해능은 좋아지지만 주파수 분해능이 떨어집니다.

이처럼 ‘win_length’는 주파수 분해능과 시간 해능 간의 trade-off를 조절하는 역할을 합니다.

최정명 님은 다양한 해상력을 모델이 훈련할 수 있도록 win_length를 200, 400, 800, 1000으로 해 총 4개의 melspectrogram을 만들었습니다.



2. 데이터 분포를 고려한 validation 데이터 구축

valid

train과 valid에 동일한 사람의 녹음본이 들어가는 경우, 모델은 해당 사람에 대한 목소리 혹은 특성을 외울 수 있습니다.

이번에 제공된 데이터셋에 녹음한 사람 정보는 없었지만, 파일명으로 sort하여 확인한 결과, 같은 사람이 연속적으로 나오는 것을 알 수 있었습니다.

이에 최정명 님은 최대한 train과 valid에 동일한 사람이 치우치지 않도록 구축하고자 파일명을 sort하고, 3칸씩 건너뛰어 3개의 데이터셋을 만들었습니다.



3. 3-Dataset x Stratified 5-Fold, 총 15개 모델의 예측 결과의 평균을 사용해 최종 결과물 도출

stratifiedKFold

앞서 녹음한 사람을 고려하여 생성했던 3개의 데이터셋을 이용해 각각 Stratified 5-Fold를 진행하였습니다. 이번에는 ‘범주형 종속변수’라는 특성을 고려하여 6개의 국적이 균등하게 구성되도록 하는 Stratified K-Fold를 적용하였습니다.

총 15개의 모델로부터 얻은 15개의 예측 결과를 평균하여 최종 결과물을 도출했고, 그 결과 Private Score 기준 LogLoss 1.0517로 1위를 기록했습니다.

최정명 님은 토크 게시판에서 대회 기간 중 교차검증(CV, Cross Validation) 성능과 리더보드(LB, Leader Board) 성능에 차이가 발생하는 것에 대한 고민을 다른 참가자들과 공유하였는데요. 해당 게시글에 달린 hahaha 님의 댓글을 보고 떠오른 데이터 분리 아이디어를 적용했다고 합니다! 💡



일의 실마리가 보이지 않을 때, 다른 사람들과 함께 이것저것 이야기하다 보면 복잡했던 일들이 정리되거나 새로운 아이디어가 문득 떠오르곤 하죠!

데이커분들도 같은 대회에 참여하고 있는 다른 참가자들과 활발히 논의할 수 있는 토크 게시판을 적극적으로 이용해 보세요!


> 더 많은 솔루션과 아이디어는 여기에서! <



제2회 코스포X데이콘 채용 연계 경진대회 📖

도서 추천 알고리즘

코리아스타트업포럼(코스포)X데이콘 도서 추천 알고리즘 AI 경진대회 절찬 진행 중!


고객 경험을 개선하는 추천 시스템 알고리즘을 개발해 보세요!

우수 인재는 지원을 희망하는 스타트업에 추천됩니다!

(이미지를 클릭해 자세한 내용을 확인하세요!)




🌙 특별 인터뷰

LG Aimers 오프라인 해커톤 참가팀

(가전은LG, 노아의 방주, 쥬혁이, NTJ공장, OCC)


이번 특별 인터뷰는 이전의 특별 인터뷰보다 조금 더 특별합니다.

데이콘 특별 인터뷰 최초(!)로 여러 인터뷰이를 한자리에 모셨기 때문인데요!

지난 3월 말, LG 인화원에서 진행된 LG 오프라인 해커톤 참가팀의 팀장분들이 그 주인공입니다!


‘스마트 공장 제품 품질 상태 분류 AI 해커톤’, 데이콘 홈페이지에서 한 번쯤 보셨을 텐데요!

2월에 진행된 온라인 해커톤의 상위 30팀은 3월 25일(토) ~ 26일(일) 이틀에 걸쳐 경기도 이천에 위치한 LG 인화원에서 오프라인 해커톤(본선)을 진행했습니다.


같은 공간에서 팀원들과 함께 실시간으로 소통하고, 한정된 시간 동안 전략을 짜 구현하는 오프라인의 분위기는 온라인과는 무척 다르겠죠?

장장 21시간 동안 열정을 불태워 참 여한 5팀의 이야기, 함께 보시죠! 🔥


LG 오프라인 해커톤


🎙️ 간단한 팀 소개를 부탁드립니다!

가전은 LG

안녕하세요, 이번 LG Aimers 2기에 참여하여 드라마틱하게 본선에 올라가게 된 ‘가전은 LG’ 팀장 정민우입니다. 저희 팀은 대회 이전에는 일면식도 없었지만, LG Aimers 사이트 내 게시판에서 모여 팀으로 참가하게 되었습니다.


노아의 방주

리더보드 순위의 대격변을 예언하고 홀로 방주에 타서 살아남은, 이번 LG 해커톤 1위 팀 노아의 방주입니다.


쥬혁이

안녕하세요 팀 쥬혁이의 팀장 전주혁입니다.


NTJ공장

안녕하세요! NTJ공장 팀입니다. 팀원 모두 외향, 내향만 다르고 MBTI가 NTJ라서 팀명을 NTJ 공장이라고 지었습니다. 아시다시피 NTJ가 효율을 추구하기도 한다는 점, 스마트 ‘공장’ 제품 품질 상태 분류 AI 대회라는 점에서 공장을 따 와 합쳤습니다.


OCC

​​안녕하세요. 팀 OCC 팀장 서영민입니다. OCC는 LG Aimers 교육 홈페이지의 자유 게시판에서 해커톤에 참여할 사람들을 구해서 만들어진 팀으로 저를 포함하여 총 5명으로 이루어져 있습니다.



🎙️ 21시간 중 가장 힘들었던 고비의 순간이 있으셨나요? 당시 어떤 상황이었고 어떻게 대처하였는지, 그밖에도 생각나는 점이 있다면 자유롭게 이야기해 주세요!

가전은 LG

새벽 4~5시 무렵, 수많은 시도에도 결과가 개선되지 않아 실망하고 지쳐, LG 인화원 벤치에 드러누워 있었는데, 인화원이 완전 휴양림 그 자체라, 속이 뻥 뚫리더니, 문득 아이디어가 떠올랐습니다. 다만, 아이디어의 스케일이 너무 커서, 그 당시의 체력으로 구현하기엔 어려움이 있었기에 아쉬움이 남습니다.


노아의 방주

이런 해커톤에서 흔하다면 흔한, 열심히 아이디어와 가설을 세우고 적용했는데 score가 나오지 않는 경우가 고비의 순간이었습니다. 당시 열심히 구상한 모델의 public 점수가 낮았는데, 모델의 seed만 바꿔도 public 점수가 훅훅 바뀌었습니다.

따라서 public 점수에 너무 치중하지 말고 robust한 모델을 구상한 후, 5위 안에 들고 발표에서 뒤집자고 상의하며 대처했습니다. (결국 public 10등에서 private 1등이 되었습니다.)


쥬혁이

최종 제출 마감이 1시간도 남지 않았을 때, public score 1등이었는데 hard voting을 이용해서 2등분과 압도적인 점수 차이를 냈습니다. 하지만 이게 overfitting으로 인한 점수 차이인지, 아니면 정말 좋은 아이디어였던 것인지 헷갈리고 결정할 시간이 부족했습니다.

어떤 모델을 제출할지 너무 고민이 되었고, 결국 비교적 더 강건하다 생각한 낮은 점수 모델을 최종 제출했습니다.


NTJ공장

저희가 추가될 거라고 예상했던 데이터가 아니라서 처음에는 조금 당황했던 것 같아요! 하지만 팀원들과 침착하게 회의를 통해 기존 전략을 바탕으로 시도하자는 전략을 세웠습니다. 처음에 당황해서 갈피를 못 잡을 뻔! 했지만 팀원들 덕에 잘 헤쳐나갈 수 있었습니다.


OCC

그나마 힘들었던 고비도 없었습니다. 이것이 최종 순위에서 하위권으로 남은 이유인 것 같습니다.



🎙️ 대회에 참여하면서 재밌던 순간이나, 참여하길 잘했다고 생각한 순간이 있다면요?

가전은 LG

오프라인 해커톤 경험, 그 자체로 너무 행복했습니다. 저는 경영학과 학생이라 이런 기회가 없었기 때문에, Phase1에서 새로운 내용들을 배우는 것도 재미있었습니다. 꼭 오프라인 해커톤에 가 보려고 Phase2 내내 새로운 거 찾아보고, 모델 돌려보고를 반복했는데, 가게 되어 보람 있었습니다.


노아의 방주

LG 인화원을 탐방하고, 취업 연계나 퍼스널 컬러 상담 등을 받는 등 대회 외적인 활동을 다양하게 해 보면서 참여하길 잘했다고 생각했습니다.


쥬혁이

리더보드상에서 1등을 달성하고 계속해서 다른 팀들과 차이를 벌릴 때 재밌었습니다. 그리고 최종 5팀 발표 평가에 진출한 결과를 보고 참여하길 잘했다고 생각했습니다.


NTJ공장

우선, 밥이 너무 맛있었습니다ㅎㅎ 채용 박람회는 물론 퍼스널 컬러 검사, 인생 4컷 같은 재밌는 행사도 있어서 더욱 특별한 경험을 할 수 있었어요.

가디언님이 정말 잘 챙겨주셨어요! 대회에 대한 가디언뿐만 아니라 앞으로 인생에 대한 가디언 같은 느낌을 받았습니다. 또한 해당 직무에서 일하는 분들의 이야기를 들으면서 많은 도움을 받았습니다.


OCC

전혀 모르던 사람들과 오프라인으로 만나서 대회를 참여한 것이 처음이고, 새로운 사람들과 한 목표를 가지고 토론하는 것 자체가 즐거웠습니다.

대회 외적으로도 LG 인화원에서 맛있는 밥을 먹고 좋은 숙소에서 자고, 좋은 시설을 사용하니 1분 1초가 즐거웠습니다. 웰컴 키트 받았을 때도 참여하길 잘했다고 느꼈습니다.



🎙️ 추후 유사한대회가 진행될 시, 재참여 의사가 있으신가요?

가전은 LG

꼭 다시 참여하고 싶습니다, 온라인 교육, 대회, 오프라인 대회 내내 많이 배워서 좋았고, 오프라인에서는 힘들어도 옆에 팀원과 다른 경쟁자분들이 계시니, 지쳤다가도 힘이 생겨나는 경험을 할 수 있습니다.


노아의 방주

저는 오프라인 관련 대회에 참여하는 것에 대해서 무조건 추천합니다.

온라인 대회를 하던 것과는 다르게 오프라인 대회는 오프라인 대회만의 전략이 존재하고, 빠른 템포와 시간 내 최대한의 집중력을 요구하기 때문에 정말 재밌게 즐길 수 있습니다. 실시간으로 변하는 리더보드와 다른 팀들이 열심히 하는 모습들을 보고 꺼졌던 의지가 다시 샘솟기도 합니다.


쥬혁이

LG 직원분들과 대화를 해보고 궁금한 점도 질문해 볼 수 있어서 좋았습니다.

짧은 시간이었지만, 한 달이 지난 지금도 그때 대화들이 기억납니다. 제가 어떤 방향으로 성장할지, CV를 어떻게 수정할지, 그리고 결과 발표 후 받았던 격려와 위로가 정말 기억에 남습니다.


NTJ공장

앱솔루틀리 참여하고 싶어요. 열정적인 사람들과 함께 데이터에 집중할 수 있는 소중한 시간이었어요!! 또 현업에서 어떻게 데이터를 통해 문제를 해결하는 지 엿볼 수 있는 시간이니까 데이터에 관심 있다면 무조건 참여하세요!


OCC

당연합니다. 취업 박람회, 웰컴 키트, 좋은 시설에서 요양하는 느낌, 같은 목표를 위해 노력하는 주변 사람들 등 오프라인 대회에서 얻어갈 수 있는 것들이 많으니 관심 부탁드립니다.



🎙️ 마지막으로, 데이콘 대회를 통해 성장을 꿈꾸는 데이커분들에게 격려의 말을 부탁드립니다!

가전은 LG

데이커분들과 함께 지식을 배우고 알려 주며, 의견을 나누는 등 여러 방면으로 성장할 수 있음에 감사합니다.


노아의 방주

저도 처음 데이콘 대회들을 접했을 때는 그다지 잘하지 못했는데, 계속해서 꾸준히 참여하며 경험과 노하우가 생기다 보니 어느새 고인물이라는 소리를 들으며 매번 상위권을 차지하고 있습니다. 성장을 꿈꾸는 새 데이커분들도 지금은 순위가 낮을지 몰라도, 꾸준하게 참여하다 보면 언젠가는 수상까지 이뤄낼 수 있을 거라고 믿습니다!


쥬혁이

“Attention is all you need”


NTJ공장

비전공자도 가능하니까 자신의 한계를 한정하지 말고 도전해 봤으면 좋겠습니다!

데이콘에서 제공되는 베이스라인 모델과 다양한 코드 공유를 참고해서 꾸준히 공부하면 무한 성장 가능합니다! 화이팅~


OCC

시작하지 않으면 무엇도 얻을 수 없습니다. 일단 시작하세요.




그밖에 팀원들과 가장 많이 주고받았던 말, 시험장에서 숙소로 돌아간 시간, 팀원들에게 전하고 싶은 말 등등!

더 많은 이야기는 데이콘 우승자 인터뷰 게시판에서 확인하실 수 있습니다! >>> 인터뷰 풀버전 보러 가기!


+) 참여하셨던 분들 모두 실무자와 직접 만나 궁금한 점을 해소하고, 조언을 들을 수 있어 무척 좋았다고 이야기해 주신 점이 눈에 띄는데요!

지난 한 주간 데이커 여러분이 보내 주신 질문으로 LG AI 연구원 김향미 팀장님과 특별 인터뷰를 진행합니다!

그간 궁금했지만, 속 시원히 해소하지 못했던 질문들을 선별하여 진행 예정이니, 많은 기대 부탁드립니다. 😆




기후 변화와 AI 🌡️

오늘 출근길에 스크린 도어 위에 모기가 두 마리 붙어 있는 걸 발견했습니다.

본격적으로 여름이 오고 있는 전조처럼 느껴져서 순간 섬뜩했는데요.

개인적으로 사계절 중 여름을 가장 싫어하기 때문일지도 모르겠지만, 더위에 지치고 모기에게 뜯길(!) 생각에 벌써부터 눈앞이 아득해집니다.


데이커분들은 어떤 계절을 가장 좋아하시나요?

가을을 가장 좋아하는 저는 ‘가을 날씨’라고 말할 수 있는 날들이 해마다 짧아지는 것 같아서 이따금씩 슬퍼질 때가 있습니다.


날씨가 차가울 때는 잠시 기후 위기가 없는 것처럼 잊고 있다가도, 문득 어린 시절 기억하던 날씨와 다른 점들을 느낄 때마다 위기감이 엄습해 오는데요. 특히나 얼마 전 SNS에서 이번 여름은 (장마 기간 외에도) 몇 달에 걸쳐 내내 비가 올지도 모른다는 글을 보고 기후가 정말 빠르게 변하고 있다는 것을 실감했습니다..! ☔️


일기예보   일기예보

이번 7월과 8월 일기예보 (출처-msn 날씨)

(7월은 31일 중 28일, 8월은 31일 중 29일 비가 온다고 합니다! 🙀)


전 이처럼 막연하게 피부로 느끼지만, AI는 이미 정확하게 기온이 변화하는 시기를 짚어 예측하고 있었는데요.

1980~2021년의 매년 기온 상승분 데이터를 기반으로 AI 신경망을 학습시킨 뒤, 지구 평균 기온 상승이 기후 변화 임계점인 1.5도에 도달하는 데 걸리는 시간을 예측한 결과, 탄소배출량 증감 여부와 관계없이 2030년대 초반이면 달성한다는 결과가 나왔다고 합니다. 😱

더불어서 인류가 앞으로 탄소순배출량을 0으로 만드는 탄소 중립을 달성해도 이번 세기 중반(2044~2065년)까지 기온이 2도 오를 확률을 70%로 내다봤다고 해요. (영국 기상청에서는 지구 온도가 2도 이상 올라가면 폭염으로 인해 약 10억 명의 온열 질환자가 발생할 것으로 보고 있습니다!)


해당 AI는 과거 데이터를 기반으로 최근 수십년간 관찰된 기온 상승 패턴과 속도, 그리고 현재의 지구온난화 수준까지 정확히 예측했다는데요.

이처럼 AI가 미래를 정확히 예측하면 할수록 암담해지기도 하지만, 변화에 따른 결과를 정확히, 또 미리 알 수 있다면 대비책을 세우는 데 큰 도움이 되겠죠!


전문가들은 탄소 배출을 줄이려는 노력도 물론 병행해야 하겠지만, 기후 변화가 피할 수 없는 수준에 다다른 만큼 적응 방안을 찾는 것이 중요하다고 강조하고 있습니다.

이와 관련해 AI 기술이 매우 중요한 위치를 차지할 것은 당연하겠죠!

농작물의 상태와 수확량을 규모에 맞게 모니터링하고, 위기를 미연에 방지하는 ‘식품 보안 개선’, ‘태양광 PV 실시간 예측’, ‘난방, 환기 및 냉방(HVAC) 시스템 제어’, ‘에너지 저장 기술 개발’ 등 AI의 성능과 활용 방안이 무궁무진한 만큼 기후 적응 방안에 AI 기술을 어떻게 더 나은 방향으로 활용할지에 대한 논의는 계속해서 이어지고 있습니다.


빠르게 발전하는  AI 기술이 가파르게 상승하는 지구의 온도를 식힐 열쇠가 되길 진심으로 바라면서, 순식간에 다가올 이번 여름도 함께 건강하게 나 보시죠! ⛱️



참고 문헌

대한민국 정부(2023). 대한민국 기후 변화 적응 보고서

Lynn H. Kaack, Priya L. Donti,Emma Strubell, David Rolnick.(2021). 인공 지능 및 기후 변화: AI를 기후 변화 목표에 맞추기 위한 기회, 고려사항 및 정책 활용




🤩 데이콘 지금은

경진대회

지금 데이커들은 열심히 달리는 중! 🏃‍♂️


4월 중순부터 5월 중순까지 데이콘에서 진행되고 있는 정규 대회는 무려 3개!

금융 아이디어 대회, 채용 연계형 대회, 무려 총 상금 천만 원(!)이 걸린 알고리즘 대회까지, 데이커들은 그 어느 때보다 활활 불타오르는 중입니다. 🔥

여기에 월간 데이콘 항공편 지연 예측 AI 경진대회와 데이크루 5기까지 함께 진행 중이니, 데이콘 홈페이지를 확인하고 지금 바로 실력과 스펙을 업그레이드해 보세요!




에디터 한마디 💬

이번 에디터 한마디는 데이콘 팀 SP 님(👓)께 받아 보았습니다!


SP 님(👓)

꽃피는 5월, 다들 연애하고 계신가요? 🌸

저는 기회가 없어 ChatGPT에게 왜 제가 연애를 못하는지 물어보았습니다.

연애


네… 원론적인 이야기 잘 들었습니다.

좀만 더 방구석을 긁어 볼게요.


앗, 왜인지 눈물이…! 🥲

이번 뉴스레터, 즐겁게 보셨나요? 감상평과 피드백은 뉴스레터 제작에 큰 힘이 됩니다!

그럼 2주 뒤, 다음 뉴스레터에서 만나요! 👋




> 여러분의 의견이 궁금해요! <