프로그래밍/데이터엔지니어링 10

IBM Data Engineering - 2주차: Overview of the Data Engineering Ecosystem

용어 Data: Information that is collected from various sources, like databases, spreadsheets, emails, photos, videos, and social media. Data Repositories: Places where data is stored, like databases, data warehouses, and data lakes. Data Integration: Combining data from different sources into a single view so that it can be easily accessed and used. Data Pipelines: Tools and processes that help mov..

아마존 sp api 보고서 유형

각 아마존 Selling Partner API 보고서 유형은 아래와 같은 정보를 제공합니다: 1. `'all_orders': ReportType.GET_FLAT_FILE_ALL_ORDERS_DATA_BY_ORDER_DATE_GENERAL` - 모든 주문 데이터를 주문 날짜 기준으로 제공하는 평면 파일 형식의 보고서입니다. 주문 상세 정보, 배송 및 고객 정보 등이 포함될 수 있습니다. 2. `'fee_preview': ReportType.GET_FBA_ESTIMATED_FBA_FEES_TXT_DATA` - FBA (Fulfillment by Amazon) 추정 수수료 데이터를 제공합니다. 이 보고서는 각 SKU에 대한 예상 FBA 수수료를 계산하여 판매자가 비용을 더 잘 이해할 수 있도록 돕습니다. 3...

Mongo DB에서 find와 find one의 차이

MongoDB에서 `find`와 `findOne`은 유사하지만, 반환하는 데이터와 사용 방식에 있어서 중요한 차이가 있습니다. 1. **`find`**: - `find` 메소드는 조건에 일치하는 모든 문서를 반환합니다. - 반환 형태는 커서(cursor)입니다. 커서는 결과 집합을 가리키며, 반복 가능한 객체로서 결과를 순회할 수 있게 해줍니다. - 결과가 없을 경우 빈 커서를 반환합니다. - `find`는 여러 개의 결과를 처리할 때 사용됩니다. - 예시: `db.collection.find({ "name": "John" })` 2. **`findOne`**: - `findOne` 메소드는 조건에 일치하는 첫 번째 문서만 반환합니다. - 반환 형태는 단일 문서 객체입니다. - 결과가 없을 경우 `nul..

Mongo DB에서 find와 find one의 차이

MongoDB에서 `find`와 `findOne`은 유사하지만, 반환하는 데이터와 사용 방식에 있어서 중요한 차이가 있습니다. 1. **`find`**: - `find` 메소드는 조건에 일치하는 모든 문서를 반환합니다. - 반환 형태는 커서(cursor)입니다. 커서는 결과 집합을 가리키며, 반복 가능한 객체로서 결과를 순회할 수 있게 해줍니다. - 결과가 없을 경우 빈 커서를 반환합니다. - `find`는 여러 개의 결과를 처리할 때 사용됩니다. - 예시: `db.collection.find({ "name": "John" })` 2. **`findOne`**: - `findOne` 메소드는 조건에 일치하는 첫 번째 문서만 반환합니다. - 반환 형태는 단일 문서 객체입니다. - 결과가 없을 경우 `nul..

아마존 SP-API

아마존 SP-API란? Amazon Selling Partner API (SP-API)를 이해하기 쉽게 비유하자면, SP-API는 마치 대형 쇼핑몰의 '정보 안내소'와 같습니다. 쇼핑몰을 방문한 사람이 정보 안내소에 가서 다양한 질문을 하고 정보를 얻듯이, SP-API는 아마존 판매자들이 아마존의 거대한 온라인 마켓플레이스에서 필요한 정보를 얻을 수 있도록 도와주는 시스템입니다. SP-API의 구조와 사용 방법: 1. **정보 안내소의 직원들 (API 엔드포인트)**: - SP-API에서 각 API 엔드포인트는 정보 안내소의 직원과 같습니다. 각 직원은 특정한 종류의 질문에 대답하는 전문가입니다. 예를 들어, 주문 관련 질문, 재고 상태 확인, 배송 정보 조회 등 각각의 엔드포인트가 특정한 데이터와 작업..

📖데이터 품질의 비밀 Ch1. 지금, 데이터 품질에 주목해야 하는 이유

데이터 품질의 비밀: 데이터 신뢰를 쌓는 데이터옵스의 핵심과 엔드 투 엔드 단계별 가이드 1.1 데이터 품질이란? 1.2 데이터 품질의 현재 1.3 마치며 Preview 데이터 품질에 주목해야 하는 이유 살펴보기 아키텍처 및 기술 동향이 전반적인 거버넌스 및 신뢰성에 어떤 영향을 주고 있는지 설명하기 🍋데이터 다운타임🍋 사이트 신뢰성 엔진어링 팀의 초창기로 거슬러 올라가, 동일한 데브옵스 원칙을 어덯게 데이터 엔지니어링 워크플로우에 적용할 수 있는지 설명 🍋데이터 다운타임(data downtime): 데이터가 수집되지 않아 누락되거나 부정확하게 측정되는 등의 데이터 손실로 인해 소프트웨어 또는 서비스의 가동이 중지되는 상황 ➡ 신뢰할 수 없는 데이터가 너무 많을 때 발생 🍊비즈니스 인텔리전스: 기업의 비..

[네트워크 개론] 2. 프로토콜

프로토콜: 통신규약 두 Host간 데이터를 교환하는 양식과 규칙의 체계 네트워크 용어 마지막에 유난히 'P'가 많은 이유 네트워크 레이어 -비신뢰성: 전송보장 x -비연결성 이미지는 홍콩에서오고 텍스트는 일본에서 오고 이런 일이 생길 수 있음 덤브레이어-> 유연함 신호를 보내는 데 최대한 노력하는 레이어 주소지정 IP Address IP Address(v4) 이론적으로 쓸 수 있는 v4다 씀 IP주소에는 주인이 있음 IP주소 잘게 쓰기 위한 방법 연구중 192.168.100.14/24 (비트 수) IP(v4/v6)의 몇몇 주소 혹은 영역은 특수한 목적으로 예약되어 있음 Private Network: 그 안에서 통신을 할 수 있느냐 없느냐 0.0.0.0을 사용하는 이유 서버 띄울 때 로컬호스트 말고 서버에..

[네트워크 개론] 1. 네트워크를 왜 알아야 할까?

오늘날 제공하는 대부분의 서비스는 Network 기반 우리나라 인터넷 본격 도입 1999년~2000년 면접 단골질문 naver.com으로 접속하기까지의 과정 네이버닷컴을 dns를 통해 ip주소로 변환 인터넷 상에 주소 필요 : IP 서버에 접속한다: 내부 숨은 경록 타고타고 이동 https와 http차이점 OSI 7계층 절대적인 건 아니다 물리계층: 직접적 물리적으로 이어지는 계층 네트워크 계층: 그 위에서 물리적 선 꽂히면 그 선들의 데이터 실어 보내야하는데 아날로그 신호 디지털로 변환하기도 하고 그 규정 입히기도 하고, 네트워크는 정의에 따라 다양한 계층으로 구별되며 OSI 7계층이 가장 유명 Network의 성능 다음의 요소로 구분: Latency, Bandwidth, Loss Bandwidth: ..

데이터엔지니어링이란?

데이터엔지니어링 -비즈니스 문제를 해결하기 위해 데이터를 정의하고 수집하여 처리 및 요약하는 직무 * 데이터 수집, 처리, 저장 및 요약 과정을 수행하는 데이터 파이프라인 개발 및 운영 업무 * 다양한 형태의 원천 데이터를 보다 더 가치있는 데이터로 변환하는 데이터 랭글링 업무 * 대용량 데이터 서비스 개발 및 운영 업무 ex 네이버 검색 서비스 -수집, 정제, 서빙 웹문서만 해도 20억 건 ex데이터 랩 -검색 트렌드 살펴보는 데 부족함이 없도록 쇼핑 인사이트 -카테고리별 인기 검색어 살펴보기, 데이터 순위 살펴보기 네이버 애널리틱스 -네이버 외부의 사용자 행동 및 비즈니스 성과 분석 -일 10억 건의 로그 (5시간 소요) 사용자 모델 -검색, 광고, 쇼핑, 프레이스, 블로그 13개월 로그 사용 -관심..