본문 바로가기
개발 Tools/파이썬_개념

차원의 저주 (Curse of Dimensionality) & 매니폴드 가정 (manifold assumption)

by 전컴반 2021. 11. 24.
반응형

 

차원의 저주(Curse of Dimensionality)


- 차원이 높아짐에 따라 발생하는 현실적인 문제들
- 차원이 증가할수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현상 발생
- 예) d=4인 Iris 데이터에서 축마다 100개 구간으로 나누면 총 1004=1억 개의 칸
- 예) d=784인 MNIST 샘플의 화소가 0과 1 값을 가진다면 2784개의 칸. 이 거대한 공간에 고작 6만 개의 샘플을 흩뿌린 매우 희소한 분포

 


- 즉, 가지고 있는 데이터(샘플)가 고차원의 feature space에 고르게 분포할 수 없으며, 이렇게 비어있는 공간은 정보가 없으니 머신러닝 모델을 만들 때 이런 공간을 고려하기 어렵고 결국 성능이 감소될 수 있음

- 예를 들면 (1) (2) (3) 이렇게 있던 것이 차원이 늘었다면 (1,2) (2, 5) (3, 10) 이렇게 늘어난다는 것이다. 다시 말해 차원== 특징 == 조건이다.

 

매니폴드 가정(manifold assumption)


- 매니폴드란? 고차원의 데이터를 공간에 뿌릴 때 샘플들을 잘 아우를 수 있는 subspace를 의미한다.
- 매니폴드 학습(manifold learning)을 하게 되면, 고차원의 데이터를 잘 표현할 수 있는 manifold의 특성을 알게 되고, 이를 통해 샘플 데이터의 특징을 파악할 수 있고, 차원을 축소해 볼 수 있음 (즉, 예측 모델의 성능 증대 기대)

 

롤링이 되어 있다는 걸 모르고 정사시킨 것과 알고 펼친 것의 차이다

반응형

댓글