Regression: 초 간단 직선 회귀
Ex평수에 따른 부동산 가격
선형적 비례적 관계를 갖는 애들
가장 먼저 선정해야 하는 것: Model
Linear Regression
목표: 실수 범위 입력 변수 x를 관찰한 후 이 관찰 값을 바탕으로 실수 범위의 타겟 값을 예측하고자 함
M(x)=f(x;Θ)
=f(x;a,b)=ax+b
a: 기울기 b: 절편
L(a,b)=g(a,b;x)=??
(a*, b*)
주어진 점 대입해서 최적의 a,b구함
Loss function
주어진 샘플을 통해서 최적의a,b구하기
argmin(a,b)이 안에 들어가는 함수의 값을 제일 작게 만들 때의 a와 b의 값
L(a, b)=argmin(a,b)(E(a,b;x))
예측값과 실제값의 차이를 보는 것
최적의 a,b구하기
Loss Function 풀이
각각 지점에서 0이되는 곳: 최소값(미분)
동일한 규모의 노이즈를 가했는데 피팅이 잘되는 경우
샘플 수 충분하면 식이 잘 표현됨
모델 복잡도에 샘플 수가 영향을 미친다
-데이터의 성향이 직선으로 표현되기는 무리
-'언더피팅': 선택한 모델이 데이터를 충분히 표현하지 못할 때
*표현력이 더 높은 좀 더 복잡한 모델을 사용해야하지만 더 정확한 결과를 얻을 수 있음
-똑똑한 사람이라면 여러 개의 모델을 적용해서 가장 좋은 모델을 선택할 것임(Model Selection)
곡선 형태 데이터는 적용 못함
'프로그래밍 > 데이터사이언스' 카테고리의 다른 글
RDBMS의 이해 (0) | 2023.01.11 |
---|---|
Regression (Part2) (0) | 2023.01.11 |
머신러닝이란 무엇인가? (0) | 2023.01.11 |
ML 영역 소개 (0) | 2023.01.11 |
앨리스 워드클라우드 (0) | 2022.03.25 |