<서울시 범죄현황 통계자료 분석 및 시각화>
1. 모듈 불러오기
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib import font_manager, rc
2. 데이터 위 아래 부분 5개 살펴보기
df = pd.read_excel('엑셀명.xlsx')
df.head() #위에 5개
df.head() #아래 5개
3. 데이터 기본 통계값 확인하기
df.describe()
4. 자료형 확인
df.info()
*하나의 구에 경찰서가 두 곳인 곳-> 피벗테이블 사용, (Group by도 가능)
dict[컬럼명].apply(컬럼 내 데이터마다 적용할 함수)
dict.get(key)는 value를 return
Q. 마스킹과 필터링 차이점
masking과 filterning은 큰 차이 없다.
둘다 참 거짓 판단하는 기준 정하고 key 값 자리에 넣어서 안에 값 꺼내거나 불러오는 기능을 한다.
큰 차이는 발생하지 않는다.
masking-안에 있는 값 바꿔주기, 스프레이 페인터 생각하기
filtering-값을 꺼내려고 하는 것
#Heat맵 열 지도
-폰트 > 속성 들어가서 진짜 이름 확인하기
-폰트 이름에 공백 있으면 안됨
-FontProperties: 지정한 폰트파일 있으면 이걸로 해줌.
-rc: run configure
열마다 자릿수 뒤죽박죽일 때
0.0x xxx xx x -->열 하나하나를 feature라고함
Column/Attribute/Dimension/Feature (1:41)
넓은 의미 Feature: 데이터특성. 거의 열을 가리킴
작업->feature Scaling ---> Feature Normalization(정규화)
통일된 공통점.
열마다 자릿수 비슷하게 만들어줌.
Feature normalization 유명한 기법 두 가지
1. Min-Max algorithm
-Min(열)= 0
-Max(열)= 1
2. Standarization표준화
(1:52 즈음)
-mean(열)=0
std(열)=1
mean, max, std ㅡ
* 데이터의 종류와 시각화 목적에 따른 다양한 차트 (유의점 및 소스코드 포함) @ https://goo.gl/ErLHCY * Data Viz Project (각종 차트별 정의/용도/유사차트/데이터형식) @ http://j.mp/2JcEENe * Top 6 Python libs for Visualization: Matplotlib/Seaborn/Plotly/Bokeh/Altair/Folium (장단점) @ https://j.mp/30772sU
Scatter Plot-A scatterplot displays the relationship between 2 numeric variables. For each data point, the value of its variable is represented on the X axis, the second on the Y axis.
새로 알게된 부분 & 혼자 복습하다가 궁금해진 부분 정리
1 아닌것: ~
2 결측값 채우기: fillna
3 새롭게 이름 지어주기
gu_df.rename(columns = {'기존':'새로운'}, inplace=True)
4 inplace=True 덮어쓰기 여부
5 매칭
df: A, B
(매칭)
- A.join(B) <- A와 B 데이터프레임의 index 열이 동일해야함
(매칭) 2. pd.merge(A, B, left_on="구별", right_on="구 이름", how="inner")
6 한글 데이터 시각화를 위한준비
%matplotlib inline
from matplotlib import font_manager, rc
font_name = font_manager.FontProperties(fname="c:/Windows/Fonts/malgun.ttf").get_name()
rc('font', family=font_name)
7 ax=sns.heatmap(df, # 데이터
vmin=100, # 최솟값
vmax=700, # 최댓값
cbar=True, # colorbar의 유뮤
center=400, #중앙값 선정
linewidths=0.5# cell사이에 선을 집어 넣는다.
annot=True, fmt="d"# 각 cell의 값 표기 유무, 그 값의 데이터 타입 설정
cmap='Blues' #히트맵의 색을 설정한다. )
'IT > 멋쟁이사자처럼 AI SCHOOL' 카테고리의 다른 글
멋쟁이사자처럼 AI SCHOOL 8일차 필기 - 파이썬을 활용한 데이터 수집 & 웹 스크레이핑 + 파이썬 기반 텍스트 데이터 분석 (1) (0) | 2022.03.25 |
---|---|
멋쟁이사자처럼 AI SCHOOL 6일차 복습 - 파이썬 프로그래밍 기초 (2)🐉 (0) | 2022.03.24 |
멋쟁이사자처럼 AI SCHOOL 5일차 복습 - 파이썬 프로그래밍 기초 (2)🐉 (0) | 2022.03.22 |
멋쟁이사자처럼 AI SCHOOL 3일차 복습 - [심화]같이푸는 파이썬🦎 (0) | 2022.03.17 |
멋쟁이사자처럼 AI SCHOOL 2일차 복습 - 같이 푸는 파이썬 기초🦎 (0) | 2022.03.15 |