반응형
차원의 저주(Curse of Dimensionality)
- 차원이 높아짐에 따라 발생하는 현실적인 문제들
- 차원이 증가할수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현상 발생
- 예) d=4인 Iris 데이터에서 축마다 100개 구간으로 나누면 총 1004=1억 개의 칸
- 예) d=784인 MNIST 샘플의 화소가 0과 1 값을 가진다면 2784개의 칸. 이 거대한 공간에 고작 6만 개의 샘플을 흩뿌린 매우 희소한 분포
- 즉, 가지고 있는 데이터(샘플)가 고차원의 feature space에 고르게 분포할 수 없으며, 이렇게 비어있는 공간은 정보가 없으니 머신러닝 모델을 만들 때 이런 공간을 고려하기 어렵고 결국 성능이 감소될 수 있음
- 예를 들면 (1) (2) (3) 이렇게 있던 것이 차원이 늘었다면 (1,2) (2, 5) (3, 10) 이렇게 늘어난다는 것이다. 다시 말해 차원== 특징 == 조건이다.
매니폴드 가정(manifold assumption)
- 매니폴드란? 고차원의 데이터를 공간에 뿌릴 때 샘플들을 잘 아우를 수 있는 subspace를 의미한다.
- 매니폴드 학습(manifold learning)을 하게 되면, 고차원의 데이터를 잘 표현할 수 있는 manifold의 특성을 알게 되고, 이를 통해 샘플 데이터의 특징을 파악할 수 있고, 차원을 축소해 볼 수 있음 (즉, 예측 모델의 성능 증대 기대)
롤링이 되어 있다는 걸 모르고 정사시킨 것과 알고 펼친 것의 차이다
반응형
'개발 Tools > 파이썬_개념' 카테고리의 다른 글
바이어스와 분산의 관계 (교차검증, 부트스트랩) (0) | 2021.11.24 |
---|---|
학습의 종류 (지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 결정론적 학습, 스토캐스틱 학습) (0) | 2021.11.24 |
파이썬 시간 복잡도 (Big-o, 빅오) (2) | 2021.10.17 |
파이썬 any, all (0) | 2021.10.17 |
파이썬 삼항 연산자, 맴버 연산자, 식별 연산자 (in, not in , is, is not) (0) | 2021.10.17 |
댓글