IT/멋쟁이사자처럼 AI SCHOOL

멋쟁이사자처럼 AI SCHOOL 7일차 복습 - 파이썬 정형 데이터분석 (2)🐉

카멜필름 2022. 3. 24. 00:22

<서울시 범죄현황 통계자료 분석 및 시각화>

 

1. 모듈 불러오기

import numpy as np
import pandas as pd
import seaborn as sns

import matplotlib.pyplot as plt

from matplotlib import font_manager, rc

2. 데이터 위 아래 부분 5개 살펴보기

df = pd.read_excel('엑셀명.xlsx')

df.head() #위에 5개

df.head() #아래 5개

3. 데이터 기본 통계값 확인하기

df.describe()

4. 자료형 확인

df.info()

 

*하나의 구에 경찰서가 두 곳인 곳-> 피벗테이블 사용, (Group by도 가능)

 

dict[컬럼명].apply(컬럼 내 데이터마다 적용할 함수)

dict.get(key)는 value를 return

 


Q. 마스킹과 필터링 차이점

masking과 filterning은 큰 차이 없다.

둘다 참 거짓 판단하는 기준 정하고 key 값 자리에 넣어서 안에 값 꺼내거나 불러오는 기능을 한다.

큰 차이는 발생하지 않는다.

masking-안에 있는 값 바꿔주기, 스프레이 페인터 생각하기

filtering-값을 꺼내려고 하는 것

 

 

#Heat맵 열 지도

 

 

-폰트 > 속성 들어가서 진짜 이름 확인하기

-폰트 이름에 공백 있으면 안됨

-FontProperties: 지정한 폰트파일 있으면 이걸로 해줌.

-rc: run configure

 

 

열마다 자릿수 뒤죽박죽일  때

0.0x xxx xx x -->열 하나하나를 feature라고함

Column/Attribute/Dimension/Feature (1:41)

넓은 의미 Feature: 데이터특성. 거의 열을 가리킴

작업->feature Scaling ---> Feature Normalization(정규화)

통일된 공통점.

열마다 자릿수 비슷하게 만들어줌.

 

Feature normalization 유명한 기법 두 가지

1. Min-Max algorithm

-Min(열)= 0

-Max(열)= 1

2. Standarization표준화

(1:52 즈음)

-mean(열)=0

std(열)=1

 

mean, max, std ㅡ

 

 


* 데이터의 종류와 시각화 목적에 따른 다양한 차트 (유의점 및 소스코드 포함) @ https://goo.gl/ErLHCY * Data Viz Project (각종 차트별 정의/용도/유사차트/데이터형식) @ http://j.mp/2JcEENe * Top 6 Python libs for Visualization: Matplotlib/Seaborn/Plotly/Bokeh/Altair/Folium (장단점) @ https://j.mp/30772sU

 

Scatter Plot-A scatterplot displays the relationship between 2 numeric variables. For each data point, the value of its variable is represented on the X axis, the second on the Y axis.


새로 알게된 부분 & 혼자 복습하다가 궁금해진 부분 정리

1  아닌것: ~

2  결측값 채우기: fillna

3 새롭게 이름 지어주기

gu_df.rename(columns = {'기존':'새로운'}, inplace=True)

4  inplace=True 덮어쓰기 여부

5 매칭

df: A, B

(매칭)

  1. A.join(B) <- A와 B 데이터프레임의 index 열이 동일해야함

(매칭) 2. pd.merge(A, B, left_on="구별", right_on="구 이름", how="inner")

한글 데이터 시각화를 위한준비

 
%matplotlib inline
 
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)
 
 

7  ax=sns.heatmap(df, # 데이터

       vmin=100, # 최솟값
           vmax=700, # 최댓값          
           cbar=True, # colorbar의 유뮤          
           center=400, #중앙값 선정          
           linewidths=0.5# cell사이에 선을 집어 넣는다.          
           annot=True, fmt="d"# 각 cell의 값 표기 유무, 그 값의 데이터 타입 설정          
           cmap='Blues' #히트맵의 색을 설정한다. )