Stndardization, Normalization, Minmax 의 차이와 개념을 알려줘

2023.04.19 12:21 2,092 조회
데이터 전처리 중에서도 대표적인 방법 중 하나로 Standardization, Normalization, Min-Max Scaling이 있습니다. 
이 세 가지 방법은 모두 데이터의 스케일을 조정하여 다양한 머신러닝 알고리즘에서 더 좋은 결과를 얻을 수 있도록 합니다. 
하지만 이들은 서로 다른 개념을 갖고 있습니다.


1. Standardization (표준화)

  • 개념: 평균이 0, 표준편차가 1이 되도록 스케일을 조정하는 방법입니다.
  • 수식: (x - mean) / std
  • 특징: 이상치에 영향을 받지 않으며, 정규분포를 따르는 데이터에 적합합니다.


2. Normalization (정규화)

  • 개념: 데이터 값을 0과 1사이의 범위로 변환하는 방법입니다.
  • 수식: (x - min) / (max - min)
  • 특징: 이상치에 영향을 받을 수 있으며, 값의 분포가 균등하지 않은 경우 적합하지 않습니다.


3. Min-Max Scaling (최소-최대 스케일링)

  • 개념: 데이터 값을 최소값과 최대값 사이의 범위로 변환하는 방법입니다.
  • 수식: (x - min) / (max - min)
  • 특징: 이상치에 영향을 받을 수 있으며, 값의 분포가 균등하지 않은 경우 적합하지 않습니다. 정규화와 비슷한 방법이지만, 최소값과 최대값을 사용하기 때문에 범위가 0과 1사이로 고정됩니다.


이러한 방법들은 데이터의 스케일 조정뿐만 아니라 다양한 머신러닝 알고리즘에서 성능을 향상시키는 데에도 도움을 줍니다.

그러나 어떤 방법을 선택할 것인지는 데이터의 특성에 따라 다르며, 시행착오를 통해 최적의 방법을 찾아야 합니다.