프로그래밍/데이터엔지니어링

데이터엔지니어링이란?

카멜필름 2023. 1. 25. 08:20

데이터엔지니어링

-비즈니스 문제를 해결하기 위해 데이터를 정의하고 수집하여 처리 및 요약하는 직무

* 데이터 수집, 처리, 저장 및 요약 과정을 수행하는 데이터 파이프라인 개발 및 운영 업무

* 다양한 형태의 원천 데이터를 보다 더 가치있는 데이터로 변환하는 데이터 랭글링 업무

* 대용량 데이터 서비스 개발 및 운영 업무

 

ex 네이버 검색 서비스

-수집, 정제, 서빙

 

웹문서만 해도 20억 건

 

ex데이터 랩

-검색 트렌드 살펴보는 데 부족함이 없도록

쇼핑 인사이트

-카테고리별 인기 검색어 살펴보기, 데이터 순위 살펴보기

네이버 애널리틱스

-네이버 외부의 사용자 행동 및 비즈니스 성과 분석

-일 10억 건의 로그 (5시간 소요)

 

 

사용자 모델

-검색, 광고, 쇼핑, 프레이스, 블로그 13개월 로그 사용

-관심사 카테고리는 딥러닝 예측 모형을 이용하여 컨텐츠의 주제 추정

-광고 오디언스 타겟팅 및 쇼핑검새고강고 추천에 활용되어 높은 성광 ㅣㅂ증

 

Demographic: 사용자 특징을 정략적으로 표시

Interest: 중장기적인 관심사를 표시

Purchase Intent: 현재 시장에서의 구매의도 표시

 

ex쇼핑 검색 가격 비교 소비스

-46만개의 입점몰

-11억개의 상품

-17억건의 상품 이미지

-13억건의 리뷰데이터

-50여 종류의 메타데이터

 

 

Observability Platform

: 서비스 운영 Log, Metric 수집 및 시각화 플랫폼 개발 업무

목표 "얼마나 효과적으로 처리할 수 있을까? 얼마나 효율적으로 저장할 수 있을가?"

 

ex검색어 추천

자동완성, 연관검색어, (종료)급상승검색어

 

수집: kafka, logstash

저장, 처리: hadoop, hive, trino, elasticsearch, redis, mongodb, mysql //spark, flink

분석, 시각화: scikit learn, tableau, jupyter, r, matplotlib, spark Mlib

운영, 배포: airflow, docker, kubernetes, django, flask, nodejs, rest:api, json

 

주요 기술블로그

Naver D2

Line Engineering

MS Tech Community

Google Developers 

Engineering at Meta

The netflix tech blog

 

기술 응용 예시1-데이터 통계 서비스

수집/가공: 데이터 수집, 파이프라인 구축, 데이터 가공

저장/분석: 데이터 탐색/분석, 분산 데이터 프로세싱, ML 모델 서비스

서비스

 

기술 응용 예시2-광고 플랫폼

광고 매체

광고 데이터 파이프라인

 

기술 응용 예시3-분류 모형

 

Search CIC

Data Insight Center

Biz CIC

Clova CIC

Forest CIC

728x90
LIST