프로그래밍/데이터사이언스 6

RDBMS의 이해

1. 데이터베이스 관리 시스템의 개념 -데이터베이스란? *데이터는 끊임없이 만들어진다. ex)회원정보, 카페게시글, 서버 로그 등 *데이터베이스: 이 데이터들을 효율적으로 접근할 수 있도록 가공 및 저장한 것 1.2 데이터베이스 관리 시스템의 개념 1.3 데이터베이스 관리 시스템의 유형 -계층형 *데이터 관계 트리 구조 부모 자식 관계 -상위 ㄹ ㅔ코드가 복수의 하위 레코드 가짐 -이론적으로 관리 어려움 *네트워크형 -다양한 관계 그물처럼 갖는 구조 -데이터를 일원적으로 관리할 수 있지만 데이터간의 ㄱ ㅘㄴ계 설정 복잡 *NoSQL -초고용량 데이터 처리 등 성능 목적 특화된 목적 -key value -완결성 x -은행 시스템 등에 안 좋음 흔히 사용하는 건 관계형 데이터베이스 테이블과 테이블간의 관계는..

Regression (Part2)

다항식을 이용하여 함수를 근사해보기 ex뉴턴 방정식 사용 해 볼만한 근사 함수는? 다항식 입력 구간이 주어지면 그 범위 내에서는 최대한 근사한 함수를 만들어 낼 수 있다 w값 (기울기) 조정하면 임의의 값으로 함수 만들어낼 수 있음 -일반화의 힘 벡터 표현식 활용 Loss 함수 다시 보기 M=f(x;a,b)=ax+b L(a,b)=armina,b(E(a,b;x)) 벡터미분 어떻게 진행되는지 살펴보기 디자인 매트릭스 t:데이터 출력값 다른 기저 함수들 -가우시안 BF -시그모이드 BF

Regression(회귀)-1

Regression: 초 간단 직선 회귀 Ex평수에 따른 부동산 가격 선형적 비례적 관계를 갖는 애들 가장 먼저 선정해야 하는 것: Model Linear Regression 목표: 실수 범위 입력 변수 x를 관찰한 후 이 관찰 값을 바탕으로 실수 범위의 타겟 값을 예측하고자 함 M(x)=f(x;Θ) =f(x;a,b)=ax+b a: 기울기 b: 절편 L(a,b)=g(a,b;x)=?? (a*, b*) 주어진 점 대입해서 최적의 a,b구함 Loss function 주어진 샘플을 통해서 최적의a,b구하기 argmin(a,b)이 안에 들어가는 함수의 값을 제일 작게 만들 때의 a와 b의 값 L(a, b)=argmin(a,b)(E(a,b;x)) 예측값과 실제값의 차이를 보는 것 최적의 a,b구하기 Loss Fun..

머신러닝이란 무엇인가?

학습 데이터 필요 모델 선정 (주요 알고리즘) 모델 피팅-> 도메인 데이터에 적응된 최적의 모델 상태를 구성 새로운 데이터를 통해 최적의 학습 결과물 내기 M=f(x;Θ) y=ax+b M=y=f(x;a,b) a=기울기 b=절편 입력데이터를 넣어 세타를 받는 하나의 함수 입력데이터 x, 파라미터 최적화시켜서 가장 좋은 Θ 만들기 Training -학습 데이터를 이용하여 모델에 가장 적합한 파라미터 학습 Inference 파라미터를 고정 2개의 함수가 있다는 것을 잊지 말자 M=f(x;Θ) L=g(Θ;x)

ML 영역 소개

ML 홍보 클로바노트 -음성인식 -화자인식 네이버 쇼핑 For You -개인화 추천 AI 주요장면 하이라이트 -쇼핑 기획전 자동생성 감성적인 문구->하이퍼 클로바가 생성 네이버 웹툰 AI 어떻게 일하는가? 기존 서비스 요구사항을 파악하고 해결하기 위한 머신러닝 방법론 개발 1. 테스트/학습 데이터 구축 -모델을 테스트할 수 있는 테스트 데이터 구축 -평가 방법(metric) 결정 -학습 데이터 구축 (optonal) 2. 모델 개발(Proof of Concept) -해당 문제를 해결할 수 있는 모델을 개발하고 -해당 모델로 서비스 요구사항을 해결할 수 있을지 가능성 판단 3. 목표 성능 -서비스 출시를 위해 필요한 목표 성능(속도 포함) 도달 4. 서비스화 5. 서비스 유지보수관리 -Research Or..

앨리스 워드클라우드

#pip install konlpy 한글을 사용하기 위해 세종사전을 이용 세종사전이 세팅되지 않을 때는 JAVAjdk를 설치해야 함 pip install wordcloud In [2]: import nltk nltk.download('gutenberg') #파일 다운 앨리스 책 가져옴 ​ from nltk.corpus import gutenberg file_names = gutenberg.fileids() #파일 제목을 읽어온다. print(file_names) executed in 4.32s, finished 17:44:00 2021-10-04 ['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-..