본문 바로가기
반응형

개발 Tools/파이썬_개념15

베이즈 정리와 최대 우도 베이즈 정리 - 결론만 알고 과정을 추정하는 것과 같다. 다르게 말해 x가 주어졌을 때 y의 확률을 구하는 것이다. 이미 결과를 알고 그 과정을 역추적하는 것과 같다. 이런 맥락에서 기계학습에 중요한 이론이다. 수식적인 식은 아래와 같다. 예를 들면, 주머니에 병의 번호를 적은 공이 있다. 그리고 3개의 병이 있고 그 병 안에는 어려 공이 들어있다. 이때 공 하나를 뽑았는데 하얀 공이 나왔는데 이 공이 어느 병에서 나왔는지 추정하라고 한다면 어떻게 추정할까?? 이와 같이 된다. 그래서 언듯 보기에는 1번에 흰공이 많으니 확률이 높으리라 생각이 되나, 주머니에서 병의 번호를 뽑는 것과 여러 변수들이 작용한다면 3번에서 뽑았을 확률이 가장 높은 것이다 최대우도 - 매개변수를 모르는 상황에서 매개변수를 추정하.. 2021. 12. 2.
놈 (Norm), 프로베니우스 놈, 코사인 유사도, 정보이론 벡터의 p차 놈(=거리) - Norm이 측정한 벡터의 크기는 원점에서 벡터 좌표까지의 거리 혹은 위상이라고 한다. 행렬의 프로베니우스 놈 코사인 유사도 - 유사도는 -1에서 1까지의 값을 가진다. -1은 완전히 반대되는 경우, 1은 완전히 같은 경우를 의미한다 정보이론 - 확률이 작을수록 많은 정보 - "사막에 눈이 왔다" vs "북국에 눈이 왔다" 이 두 메시지 중 어느 것이 더 많은 정보를 가지냐 했을 때, 사막에 눈이 올 확률이 더 낮기 때문에 더 많은 정보를 가지고 있다고 볼 수 있다. 이를 "자기 정보"라고 한다. 식으로는 아래와 같다 로그에 - 를 붙이니 1보다 작을수록 커지는 것이다. 2021. 11. 24.
바이어스와 분산의 관계 (교차검증, 부트스트랩) 바이어스와 분산은 트레이드오프 관계 일반적으로 용량이 적은 모델은 바이어스는 크고 분산이 작고, 복잡한 모델은 바이어스는 작고 분산은 크다. 기계학습의 목표는 낮은 바이어스와 낮은 분산을 가진 예측기를 제작하는 것이다. 보통 검증집합과 테스트 집합을 나누어 모델을 훈련시키는데 추가적으로 교차검증과 부트스트랩 방식이 있다. 교차검증 - 훈련집합을 등분하여 학습과 평가 과정을 여러 번 반복하여 평균을 구하여 사용한다. 부트스트랩 - 난수를 이용하여 샘플링을 반복한다. - 데이터가 적을 때 사용하면 좋다 2021. 11. 24.
학습의 종류 (지도 학습, 비지도 학습, 강화 학습, 준지도 학습, 결정론적 학습, 스토캐스틱 학습) 지도 학습 - 특징 벡터 x와 목푯값 y가 모두 주어진 상황 - 정답을 알고 있는 학습 - 회귀와 분류 문제로 구분 비지도 학습 - 특징 벡터 x는 주어지는데 목푯값 y가 주어지지 않은 상황 - 입력만 집어넣음 - 밀도 추정, 특징 공간 변화에 사용 강화 학습 - 목표값은 주어지나 지도 학습과는 다른 형태 - 예로 바둑, 수를 두는 행위가 샘플이고 게임이 이기고 지고가 목푯값 준지도 학습 - 일부는 x, y를 모두 가지지만 나머지는 x만 가지는 상황 - 인터넷 덕분으로 x의 수집은 쉽지만 y는 수작업이 필요하여 최근 중요성이 부각됐다. 결정론적 학습 - 같은 데이터를 가지고 다시 학습하면 같은 예측기가 만들어짐 스토캐스틱 학습 - 학습 과정에서 난수를 사용하므로 같은 데이터로 다시 학습하면 다른 예측기가.. 2021. 11. 24.
차원의 저주 (Curse of Dimensionality) & 매니폴드 가정 (manifold assumption) 차원의 저주(Curse of Dimensionality) - 차원이 높아짐에 따라 발생하는 현실적인 문제들 - 차원이 증가할수록 개별 차원 내 학습할 데이터 수가 적어지는(sparse) 현상 발생 - 예) d=4인 Iris 데이터에서 축마다 100개 구간으로 나누면 총 1004=1억 개의 칸 - 예) d=784인 MNIST 샘플의 화소가 0과 1 값을 가진다면 2784개의 칸. 이 거대한 공간에 고작 6만 개의 샘플을 흩뿌린 매우 희소한 분포 - 즉, 가지고 있는 데이터(샘플)가 고차원의 feature space에 고르게 분포할 수 없으며, 이렇게 비어있는 공간은 정보가 없으니 머신러닝 모델을 만들 때 이런 공간을 고려하기 어렵고 결국 성능이 감소될 수 있음 - 예를 들면 (1) (2) (3) 이렇게 있.. 2021. 11. 24.