[Tip] 머신 러닝을 하며 놓칠 수 있는 Point 3 (수정)

2022.01.14 02:23 2,032 조회

본 게시글은 머신 러닝을 하면서 놓칠 수 있는 point에 대해 작성하였으며, ‘10 Common Machine Learning Mistakes and How to Avoid Them’을 기반으로 정리하였습니다.

아직 배우는 입장으로 부족한 점이 많습니다. 수정해야 하거나 추가해야 할 점이 있다면 댓글로 조언 부탁 드립니다!



▸ 데이터

머신 러닝의 목적은 주어진 데이터의 패턴을 파악하여 새로운 데이터에 적용하는 것 입니다.

이를 위해 데이터로 훈련하고, 테스트하고, 적용하기 때문에 머신 러닝에 있어 데이터는 매우 중요합니다.


1. 데이터를 주의깊게 보지 않는 경우

데이터를 주의깊게 본다는 것은 데이터 분석에 있어 가장 중요한 일이지만, 그만큼 어려운 일입니다.


Anscombe’s Quartet이라는 예시를 들어본 적 있으신가요?

평균, 표본 분산, 상관 계수 등 기술 통계량은 동일하지만, 분포를 확인해보면 각기 다른 4개의 데이터 셋을 의미합니다.


https://www.geeksforgeeks.org/anscombes-quartet/


이처럼 단순히 대표 값만 사용하여 데이터를 파악하고자 한다면 전체적인 부분을 파악하는 데 어려움이 발생할 수 있습니다.

따라서, 데이터를 잘 이해하기 위해서 시각화 과정을 동반한다면 큰 도움이 될 것 입니다.


그 외에도 데이터 오류, 중복 및 누락된 데이터, 불균형 데이터 등 데이터 자체에서 발생할 수 있는 문제를 고려하여 데이터를 탐색한다면, 데이터를 더욱 잘 이해할 수 있을 것입니다.


2. Data Leakage

데이콘 대회 규칙 상 Data Leakage는 수상 취소로도 이어지는 만큼, 데이콘 커뮤니티에서도 Data Leakage에 대한 질문 혹은 칼럼을 손쉽게 찾아볼 수 있습니다.


Data Leakage는 예측 시점에서 사용할 수 없는 정보가 Train Dataset에 포함되어 있을 때 발생합니다.

이러한 정보가 포함된 모델을 만들게 된다면 해당 정보로 인해 엉뚱한 모델이 만들어지고, 이로 인해 해석이 무의미해집니다.

그 뿐만 아니라, 과적합이 발생할 수 있다는 점이 가장 큰 문제점 중 하나 입니다.


ICML 2013 Whale Challenge - Right Whale Redux


실제로, Kaggle에서 진행된 Whale Challenge의 경우 3가지 유형의 data leakage가 발견되어 제거를 했을 때, AUC 점수가 0.9973에서 0.59로 급격히 감소했다고 합니다.


이처럼, Data Leakage는 머신 러닝에 있어 매우 치명적입니다.

이를 최소화하기 위해서는 예측을 위해 과거의 정보만 사용하거나, Validation Dataset을 따로 분할하여 보관하는 등 여러 방법을 활용해야 할 것입니다.



▸ 모델링


3. Baseline Model과 비교하지 않는 경우

절대적이진 않지만, 비교적 복잡한 모델이 성능이 좋은 경우가 있다는 것은 사실입니다. 그러나, 때로는 단순한 모델이 더욱 좋은 성능을 발휘하기도 합니다.


Deep learning of aftershock patterns following large earthquakes Sources


다음은 지진의 여진 위치를 예측하는 Task에서 동일한 성능을 보인 4가지 모델입니다.

놀랍게도, 6개의 은닉 레이어(DeVries 18 DNN)가 있는 네트워크의 성능과 Logistic Regression 모델의 성능이 동일함을 알 수 있습니다.

이처럼, 간단한 모델 역시 뛰어난 성능을 보이기도 합니다.


따라서, 모델링을 할 때 바로 복잡한 모델로 시작하는 것이 아니라, 간단한 baseline model을 시도 후 복잡한 모델을 시도한다면 도움이 될 수 있을 것입니다.

.

.

.

해당 게시글은 앞서 언급한 칼럼에서 3가지 항목을 기반으로 작성했습니다.

좀 더 상세한 내용이 궁금하신 분은 원문을 읽어 보시는 것도 도움이 될 것 같습니다!


지금까지 읽어주셔서 감사합니다.


** 본 게시글은 데이콘 서포터즈 ‘데이크루’ 1기 활동의 일환입니다.

** 첨부된 이미지가 보이지 않아 게시글을 수정하였습니다.

로그인이 필요합니다
0 / 1000
백남진
2022.01.14 09:13

leakage에 대해 아직도 많은 고민을 하고 있습니다. 좀 더 공부해보아야 하겠네요! 감사합니다 :)