데이터엔지니어링
-비즈니스 문제를 해결하기 위해 데이터를 정의하고 수집하여 처리 및 요약하는 직무
* 데이터 수집, 처리, 저장 및 요약 과정을 수행하는 데이터 파이프라인 개발 및 운영 업무
* 다양한 형태의 원천 데이터를 보다 더 가치있는 데이터로 변환하는 데이터 랭글링 업무
* 대용량 데이터 서비스 개발 및 운영 업무
ex 네이버 검색 서비스
-수집, 정제, 서빙
웹문서만 해도 20억 건
ex데이터 랩
-검색 트렌드 살펴보는 데 부족함이 없도록
쇼핑 인사이트
-카테고리별 인기 검색어 살펴보기, 데이터 순위 살펴보기
네이버 애널리틱스
-네이버 외부의 사용자 행동 및 비즈니스 성과 분석
-일 10억 건의 로그 (5시간 소요)
사용자 모델
-검색, 광고, 쇼핑, 프레이스, 블로그 13개월 로그 사용
-관심사 카테고리는 딥러닝 예측 모형을 이용하여 컨텐츠의 주제 추정
-광고 오디언스 타겟팅 및 쇼핑검새고강고 추천에 활용되어 높은 성광 ㅣㅂ증
Demographic: 사용자 특징을 정략적으로 표시
Interest: 중장기적인 관심사를 표시
Purchase Intent: 현재 시장에서의 구매의도 표시
ex쇼핑 검색 가격 비교 소비스
-46만개의 입점몰
-11억개의 상품
-17억건의 상품 이미지
-13억건의 리뷰데이터
-50여 종류의 메타데이터
Observability Platform
: 서비스 운영 Log, Metric 수집 및 시각화 플랫폼 개발 업무
목표 "얼마나 효과적으로 처리할 수 있을까? 얼마나 효율적으로 저장할 수 있을가?"
ex검색어 추천
자동완성, 연관검색어, (종료)급상승검색어
수집: kafka, logstash
저장, 처리: hadoop, hive, trino, elasticsearch, redis, mongodb, mysql //spark, flink
분석, 시각화: scikit learn, tableau, jupyter, r, matplotlib, spark Mlib
운영, 배포: airflow, docker, kubernetes, django, flask, nodejs, rest:api, json
주요 기술블로그
Naver D2
Line Engineering
MS Tech Community
Google Developers
Engineering at Meta
The netflix tech blog
기술 응용 예시1-데이터 통계 서비스
수집/가공: 데이터 수집, 파이프라인 구축, 데이터 가공
저장/분석: 데이터 탐색/분석, 분산 데이터 프로세싱, ML 모델 서비스
서비스
기술 응용 예시2-광고 플랫폼
광고 매체
광고 데이터 파이프라인
기술 응용 예시3-분류 모형
Search CIC
Data Insight Center
Biz CIC
Clova CIC
Forest CIC
'프로그래밍 > 데이터엔지니어링' 카테고리의 다른 글
아마존 SP-API (0) | 2024.01.19 |
---|---|
📖데이터 품질의 비밀 Ch1. 지금, 데이터 품질에 주목해야 하는 이유 (0) | 2023.05.29 |
[네트워크 개론] 2. 프로토콜 (0) | 2023.01.25 |
[네트워크 개론] 1. 네트워크를 왜 알아야 할까? (0) | 2023.01.25 |
DE 영역 과정 (0) | 2023.01.25 |