본문 바로가기
반응형

개발 Tools/파이썬_Deep learning & ML24

머신러닝 cross_val_score (estimator, scoring) 데이터를 분류하는 방법 중에 하나인 KFold와 Stratified_KFold가 있다. 이 두 방법의 API가 바로 cross_val_score 이다. 바로 코드를 보겠다. from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import cross_val_score, cross_validate iris_data = load_iris() df_clf = DecisionTreeClassifier(random_state=999) data = iris_data.data target = iris_data.target scores = cross_val_score.. 2021. 7. 13.
머신러닝 Stratified KFold Stratified KFold는 기존의 KFold의 단점을 보완하기 위해 나왔다. 만약에 암을 예측하는 프로그램을 만든다고 가정하자. 100명의 사람이 있는데 이중엔 암인 사람인 많아봐야 1-2 명 있을 것이다. 기존의 KFold 로 나눈다면, 1-2명뿐이라 예측하기도 어렵고, 찾아내기도 어렵다. 이런 단점을 보완하고 너무 적거나 너무 많을 때 골고루 분류해주는 작업이다. 라이브러리 from sklearn.datasets import load_iris import pandas as pd from sklearn.model_selection import StratifiedKFold 분배 이번에도 붓꽃데이터를 가지고 와서 분류해보겠다. iris.target에는 0,1,2 이렇게 3가지 종류가 있다. 바로 불러.. 2021. 7. 13.
머신러닝 KFold (n_splits) 우리가 데이터를 주고 훈련을 시킬 때, 일정 부분은 훈련만 시키고 이게 잘 훈련됐는지 판단할 검증 데이터가 있어야 합니다. 우린 수능을 보기 위해 모의고사를 준비합니다. 모의고사 == 학습 수능 == 검증 나에게 5개의 시험지가 주어졌다면, 4개는 풀면서 오답도 체크하고 풀이법도 익힙니다. 그리고 나머지 1개로 내가 지금까지 공부를 잘했나 평가하는 것입니다. 머신러닝에서는 데이터를 나누는데 여러가지 방법이 있습니다. 하나의 방법 중 하나인 KFold를 이용해보겠습니다. 라이브러리 필요한 라이브러리를 불러 옵니다 from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.metrics i.. 2021. 7. 13.
지역별 전기 사용량 군집화 (덴드로그램, KMeans, 클러스트링, pandas code pretty) 안녕하세요 이번엔 지역별 전기 사용량을 가지고 군집화를 해보도록 하겠습니다. 먼저 초기에 불러올 것들이 좀 있습니.다한번 불러와 보겠습니다 import AI 를 하기 위해서 기본적인 라이브러리를 불러와야 합니다. 대표적으로 Sklearn 과 scipy 가 있습니다. pd.set_option 은 출력을 했을 때 예쁘게 나오게 하기 위한 코드입니다 .꼭 없어도 됩니다! 원하는 데이터 추출 파일에서 제가 필요한 컬럼인 "서비스업" 과 "제조업" 에 해당하는 전기사용량만 가져와 보겠습니다 먼저 "구분" 으로 행을 지정합니다. 원래는 0,1,2 이렇게 지정돼 있었습니다. 그리고 개성과 합계는 분석하는데 필요가 없으니 제거합니다 inplace=True 는 원본을 바꿔치기하겠단 말입니다 그려보기 한번 그려서 출력해보.. 2021. 5. 1.