본문 바로가기
반응형

개발 Tools/파이썬_Pandas & Numpy21

pandas 원하는 데이터 찾기 ( contains(), endswith(). tolist(), values ) + 서울에는 종합 병원이 얼마나 있을까? 안녕하세요 이번에는 pandas 로 원하는 데이터를 찾아보겠습니다 먼저, 서울에는 종합병원이 얼마나 있을까? 라는 주제로 찾아볼까 합니다 그렇다면 두 개의 조건이 들어가야 하는데여 1. 서울에 있어야 한다 2. 종합병원이어야 한다 그럼 어떻게 찾아야 할까여? 연산자를 이용해서 찾아봅니다. 중요한 거는 pandas 는 "AND" 를 사용할 수 없고 연산자(&)를 사용해야 합니다 총 91 개가 존재하는군요! 근데 저기에는 저희가 원하는 값만 존재하는 건 아닌데요. 전체 이름을 보기 위해 상호명만 불러옵니다 잘 보면 "꽃배달", "장례식장" "클리닉" "어린이집" 등등. 종합병원이라 볼 수 없는 상호명이 존재하네요! 어떻게 찾아볼까요?? 굉장히 간단합니다 상호명의 문자열 중에 "꽃배달", "장례식장" 등등 이.. 2021. 4. 17.
pandas 중복값 찾아보기 ( nunique(), unique(), value_counts() ) 안녕하세요 이번에는 중복 값을 찾아보겠습니다! 각각의 컬럼에 중복되는 애들이 몇 개 인지 궁금하다면 nunique() 를 사용합니다 "상권업종 대/중 분류명" 에서는 각각 1개 5개의 이름을 가진 애들로 나눠진다는 의미입니다. 만약 하나로 통일 돼 있는 애들이라면 어떻게 할까요? 그렇다면 "상권업종대분류명" 처럼 1로 나옵니다 그럼 저 카테고리에 해당하는 애들의 이름은 어떻게 알까요?? n 을 뺀 unique() 를 사용합니다 각각의 해당하는 중복값의 이름을 알려줍니다. 대분류명은 하나라 의미가 없으니 중분류명으로 계속 알아보겠습니다 그럼 이번에는 저런 애들이 몇 개가 있는지 궁금합니다. 이걸 알려주는 함수가 있습니다. 자주 쓰이는 친구입니다. value_counts() 라는 숫자를 세주는 함수입니다 이.. 2021. 4. 14.
pandas 결측치 제거하는 법 ( isnull(), rest_index(), sort_value(), tolist(), drop(), dropna() ) 안녕하세요!! 지난번에 이어 결측치를 조사해서 제거해보겠습니다! 여러 가지 방법이 있습니다. 이번에는 두 가지 방법에 대해 얘기해볼까 합니다 지난번에 쓰던 데이터를 불러오겠습니다 결측치를 확인하는데 isnull() 이라는 함수를 활용합니다 True / False 로 구분합니다. 여기서 주의해야하는 건 True 는 값이 없는 것입니다. unll 이라는 건 "가치가 없다" 는 의미임을 주의해야 합니다 그럼 컬럼별 개수를 확인해 보겠습니다. True 는 1 이고, False 는 0 임으로 sum() 함수를 사용합니다 이 정보를 다른 변수에 넣어줍니다. 그리고 drop() 함수를 사용하기 위해 데이터 프레임 형태로 바꿔줍니다(== 인덱스 값을 부여한다) 지금은 컬럼명이 [ "index, 0 ] 으로 돼 있는걸 .. 2021. 4. 12.
Pandas csv 데이터 읽어오기 & 기본정보 확인하기 ( read_csv(), info(), head(), tail(), shape, columns...) 안녕하세요! 이번에는 파일을 pandas 로 읽어오는 법과 데이터의 기본 정보를 확인하는 법을 알아볼까 합니다! 먼저, 엄청 많은 파일을 불러올 수 있는데요 엄청나게 많은 파일을 지원하고 있죠?? 자, 이제 파일을 읽어 와 보겠습니다. 불러오는 법은 간단합니다. import pandas as pd # low_memory = False 는 파일의 정보를 누락없이 가져온다. df = pd.read_csv(r"파일 경로", low_memory=False) 저는 csv 로 파일을 다운받았기 때문에 csv 로 불러오겠습니다. 먼저 pandas 를 부릅니다. 그리고 read_csv() 즉, csv 로 된 파일을 불러오고 df ( data frame ) 라는 변수에 저장합니다. 그리고 뒤에는 상황에 맞게 설정을 해 .. 2021. 4. 10.
파이썬 pandas 기본&통계 ( drop(), loc[], value_counts(), DataFrame(),min(), max(), describe(), count(), mean(), median()) 안녕하세요! 이번엔 파이썬의 pandas 기본 사용법을 알아볼까 합니다! 먼저 pandas는 간단히 말해 엑셀이라 볼 수 있는데요. 저희가 보기 쉽게 정리하고, 원하는 값을 삭제, 추출을 할 수 있는 엄청난 친구입니다!! 그치만 저는 그 잠재력을 끌어낼 수 있을지 모르겠네요.. 한번 해 볼 수 있는 데까지 해보겠습니다 보통은 엑셀 파일을 불러오거나 하지만, 기본 편이라 임의로 한번 만들어 보겠습니다 데이터 프레임 만듦 일단 pandas 를 불러와야겠죠?? 첫 번째 말은 pandas 를 불러오는데 이름은 줄여서 pd 라 부를게 이 말입니다. 이름은 뭐라 붙혀도 상관없으나 통용상 pd 라 칭합니다 'a' 라는 열(column)을 만들고, [] 안의 값을 집어넣습니다. 그리고 만든 순서대로 index. 즉, .. 2021. 4. 8.