본문 바로가기
반응형

개발 Tools/파이썬_Deep learning & ML24

머신러닝 성능 평가 지표 종류 ( 정확도(accurcy), 혼돈 매트릭스(confusion_matrix), 재현률(recall), 정밀도(precision), F1 score, ROC, AUC ) 성능을 평가하는데 여러 지표를 사용합니다. 하나만 가지고 평가할 순 없기 때문입니다. 각각의 지표별 특징을 얘기하려 합니다. 혼돈 매트릭스 (confusion matrix) 혼돈 매트릭스 또는 오차 행렬이라고도 합니다 이건 성능 지표는 아니고 지표들이 이 혼돈 매트릭스의 조합으로 이루어집니다. 혼돈 매트릭스의 표는 이렇습니다. T = True F = False N = negative P = positive 이렇게 표로 주어집니다. 표를 보고 여주는 코드도 있습니다. from sklearn.metrics import confusion_matrix, classification_report confusion_matrix(정답, 예측) classification_report(y_test, y_predict) 정.. 2021. 7. 22.
머신러닝 preprocessing(데이터 전처리) ( classes_, LabelEncoder, get_dummies) 데이터를 보면 대부분은 쓸 수 없습니다. 정렬되지 않은 게 이 세상의 데이터이죠, 데이터 사이언스는 이런 데이터를 정제하는 능력을 갖춰야 합니다. 이런 업무를 데이터 전처리라고 합니다. 분석하고자 하는 모든 건 숫자로 바꿔줘야 합니다. 문자는 인식할 수 없기 때문입니다. 데이터 전처리에는 크게 두 가지가 있습니다. 1. 레이블 인코딩 2. 원핫 인코딩 레이블 인코딩 먼저 라이브러리를 불러옵니다. from sklearn.preprocessing import LabelEncoder import pandas as pd 예시를 리스트에 담아서 fit 시키고 transfrom 시켜보겠습니다. items = ["tv", "냉장고", "컴퓨터", "전자레인지", "믹서", "선풍기", "믹서"] encoder = L.. 2021. 7. 20.
머신러닝 MinMaxScaler(정규화) 이번엔 전처리의 한 방법인 MinMaxScaler 정규화를 알아보겠다. 표준화 = StandardScaler 정규화 = MinMaxScaler 정규화란, 모든 값을 0~1 사이의 값으로 바꾸는 것이다. 음수도 예외 없이 다 바꾼다. 표준화와는 차이가 있다. 수학식을 보자면, ( X- (X의 최솟값) ) / ( X의 최댓값 - X의 최솟값 )이다. 예시로 들어보자면, 최댓값 10, 최솟값 2 일 때, 4는 어떻게 정규화될까? (4 - 2) / (10 - 2 ) = 0.25로 정규화될 수 있다. 라이브러리 from sklearn.preprocessing import StandardScaler, MinMaxScaler from sklearn.datasets import load_iris import panda.. 2021. 7. 15.
머신러닝 StandardScaler(표준화) 우린 전처리 과정에서 다른 단위를 가진 애들을 분석해야 할 때가 있다. 한 놈은 kg, 한놈은 cm 이라면 어떻게 해야 할까?? 2가지 방법이 있다. 하나는 표준화와 하나는 정규화이다. 표준화 = StandardScaler 정규화 = MinMaxScaler 이번에는 표준화를 볼 것이고 다음에는 정규화를 볼 것이다. StandardScaler 개념 간단하다. 모든 애들을 평균이 0이고 분산이 1인 정규 분포로 만드는 것이다. 수학식부터 살펴보면 굉장히 간단하다. (Xi - (X의 평균)) / (X의 표준편차) 아이패드가 없어서 이렇게...글로 적어본다. 젠장 예시로 설명을 하자면, 만약 평균이 50이인데 임의 숫자는 49라 하자, 그러면 어떻게 되는 것일까? 정답은 (49-50) / 1 = -1이다. 여기.. 2021. 7. 15.
머신러닝 GridSearch(그리드 서치) (cv_results_, best_params_ , best_score_, estimator, param_grid, scoring, cv, refit) 그리드 서치는 최적의 파라미터를 찾아준다. 여러 모델에는 각각의 파라미터가 있는데 어떤 조합일 때 제일 좋은 점수가 나오는지 비교해주는 것이다. 이번엔, 2개 파라미터의 조합을 볼 것이고, 결정 트리로 사용할 것이다. 라이브러리 from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier from sklearn.model_selection import GridSearchCV, train_test_split import pandas as pd 훈련데이터 검증 데이터 분류 iris = load_iris() data = iris.data target = iris.target X_train, X_test, y_trai.. 2021. 7. 15.