분석시각화 대회 코드 공유 게시물은
내용 확인 후
좋아요(투표) 가능합니다.
데이터분석과정, 정말 정교하지 않아도 되나요?
안녕하세요? 머신러닝을 공부하고 있는 고등학생입니다.
그동안 dacon basic도 참가해보고, 여러 타 데이터 분석 대회도 참가해보면서 항상 의문인 점이 있어서 글을 써봅니다.
데이터 분석의 첫번째 단계인 EDA는 데이터를 탐색하며 이해도를 높이는 단계라고 알고 있습니다. 데이터의 분포도 확인하고, 결측치도 확인하고 요약도 해보고... 다양한 과정이 이루어집니다. 이 과정에서 얻은 내용들은 데이터 전처리, 변수 선택, 모델 선택에 큰 영향을 끼칩니다. 선형관계에 있으면 선형회귀를 쓰고, 상관계수가 높으면 해당 변수를 선택하고... 그런데 이 과정이 정말로 정교하다고 말할 수 있는지 모르겠습니다.
인터넷에 통계와 머신러닝의 차이에 대해 검색해보니 이런 내용이 나오더라구요. 통계는 실패를 줄이고 머신러닝은 성공 확률을 높이는 데 목적이 있다.... 어쩌구 저쩌구. 머신러닝에서 '왜 그런 모델을 쓰는거지? 왜 이런 변수를 선택한 거지?'라는 의문에 대해 많은 사람들은 이렇게 답하곤 합니다. "그렇게 하면 결과가 좋으니까". 머신러닝에서는 결과가 좋으면 과정이 매우 엄밀하지 않아도 된다는 것입니다. 제가 공부하면서 정말 많이 느낀 부분이기도 합니다. 근데 정말로 좋다고 말할 수 있는 걸까요? 저에겐 그저, 우연히 빠르기만한 너덜거리는 자동차에 불과하다고 느껴졌습니다. 언덕을 오르면 금방이라도 부서질 것 같았습니다.
선형회귀는 4가지 통계적 가정을 만족해야 합니다. 반면 RF는 노이즈가 많은 데이터에 강하다 등의 특징으로 가볍게 판단하고 모델링 결과에 집중합니다. 물론 RF는 선형회귀와는 다르게 비모수 모델이기 때문에 어쩔 수 없다는 걸 알고 있습니다. 하지만 정말로 RF의 트리 구조로 해당 문제를 접근해도 되는지는 모릅니다. 앞에서 상관계수와 변수 선택에 대해 짧게 언급했는데, 이 경우에도 상관계수 뿐만 아니라 정말 수많은 요소를 고려하여 신중하게 결정해야 하는 것이 아닌가 이런 생각이 듭니다(제가 모르는 무언가가 더 있을수도 있습니다만, 하나의 예시로 봐주시면 감사하겠습니다).
그래서 제가 묻고 싶은 것은 이것입니다. 실제로 정교하게 보이고 할 수 있는 방법이 있는데 제가 모르고 있는 것인가요? 그런 방법 없이 그저 성능으로만 판단하는 것이라면, 왜 그렇게 해도 되는 것인가요?
하찮은 글 읽어주셔서 정말 감사합니다.
혹시 이 질문이 나름 의미가 있다고 생각하신다면, 많은 논의가 이루어지면 좋겠습니다 :). 많이 궁금하거든요...
답변 감사합니다. 글 재밌게 읽었습니다 :)
논의 글이라니 흥미롭게 잘 읽었습니다 🤓
데이콘에도 이런 논의 글이 활발하게 올라오면 좋겠네요....
이런 글이 묻히지 않고 활성화되길 바라는 마음에 아직 부족한 실력이지만 주저리주저리 의견을 남겨 봅니다.
저와 다르게 생각하시는 부분이 있다면 언제나 피드백 부탁드리겠습니다.
고민하시는 것에 많이 공감합니다. 저도 머신러닝 공부하면서, 특히 대회에 참가하면서 많이 느꼈던 부분이기도 한 것 같습니다. 이론적으로는 이게 맞는데.. 오히려 성능을 떨어지고… 엄밀하지 않고 경험적으로 알 수 밖에 없는…. 이런 면에 질려서 공부를 포기하신 분도 봤구요 🥲
머신러닝 뿐만 아니라 딥러닝에서 특히 더 그런 것 같습니다. 경험적인 직관이 이론적인 바탕보다 앞서 나가는 것 같아요.
특히나 딥러닝은 내부에 어떤 기작으로 이러한 결과를 얻게 되었는지 설명하기가 어려워서 블랙박스로 불리기도 하죠. 그래서 산업에서는 설명 불가능한 딥러닝보다 머신러닝을 선호한다고 알고 있습니다.
아무튼 주워들은 이야기로 최전방이라고 하는 학계에서도 이런 경우가 허다한 것 같습니다. 변수 값에 이걸 넣었더니 성능이 좋아지더라. 그래서 이걸 쓰겠다는 식으로요…
그래서 몇년전부터 설명 가능한 AI(XAI)가 핫한 것 같은데 이마저도 아직까지는 모두가 동의할만한 이론이 나온 것 같지는 않습니다. 며칠 전에 삼성SDS에서 XAI에 대한 영상을 봤던 것 같은데 혹시 관심이 있으실까봐 주소 남겨 놓겠습니다. https://www.youtube.com/watch?v=GiP0r2_OIak
그런데 저는 이런 과정이 의미가 없다고 생각되진 않는 것 같습니다. 저는 전공이 천문학인데 천문학의 큰 발전은 항상 경험적인 발견으로부터 시작되었습니다. 생각지도 못한 현상을 발견하고 ‘이게 왜 이럴까?’ 하는 고민에서 이론적인 배경이 그 뒤를 따라 나오는 것 같습니다. 아인슈타인 같은 천재들이 내놓은 상대성 이론 같은 것들이 예외로 말할 수 있겠네요. 이론이 먼저 온 경우입니다… 그래서 아직까지는 인공지능 분야에서는 경험적인 직관에 바탕을 둔 결과를 쏟아내고 있지만 언젠가는 이를 이론으로 설명할 날이 오지 않을까 낙관적인 시각을 갖고 있습니다. 이렇게 생각은 하지만 실제로 데이터를 다룰 때는 넘겨짚는 경우가 많아서 3Vdata 님이 제기해주신 의문대로 열심히 질문하면서 데이터 분석을 해야나가야겠다는 생각이 드네요…
성능에 대한 의문을 남기셔서 며칠 전에 AI 업계에 오래 몸담고 계셨던 현업 담당자님이 하신 말씀이 떠오르네요. 제가 ‘대회처럼 상대적이고 정량적인 점수가 있는 것도 아닌데 현업에서 모델링의 성능을 어떻게 측정하나? ’라고 질문을 드렸을 때 ‘결국 유저의 피드백을 바탕으로 모델을 수정해나간다’라고 말씀해주신 것이 생각납니다. 아무래도 정확도 같은 성능은 대회의 특성상 우열을 가리기 위해서 사용하는 것이지 실제 현업에서는 그리 중요한 지표가 아닐 수도 있겠다는 생각이 드네요…
이상 주저리주저리 적어보았는데 질문에서 조금 벗어난 것 같습니다... ㅎ 다른 분들 생각도 궁금하네요… 생각할 수 있는 주제를 던져주셔서 감사합니다.
답변 감사합니다!
XAI라는 것이 있네요. 영상을 보니 살짝 아쉽긴 하지만...
언젠가는 이론으로 깔끔하게 설명할 수 있을 때가 오면 좋겠네요.
데이콘(주) | 대표 김국진 | 699-81-01021
통신판매업 신고번호: 제 2021-서울영등포-1704호
서울특별시 영등포구 은행로 3 익스콘벤처타워 901호
이메일 dacon@dacon.io | 전화번호: 070-4102-0545
Copyright ⓒ DACON Inc. All rights reserved
좋은 질문인 것 같네요 :)
데이터는 정교하게 보아야하는 것 같습니다.
유쾌한 글 하나 읽어보세요 :) https://inforience.net/2017/04/23/oldman