데이터 파이프라인 프로젝트 #3 API 서버 구축
인프라 구성을 마친 후 데이터 Source가 되는 API 서버를 구축하기로 했다. 원래 DB에 저장 후 가져오는 방법을 사용하려고 했으나 그 방법은 자주 접해본 방법이기 때문에 API 서버를 직접 구축하고 데이터를 수집하는 방식으로 결정했다.
FastAPI를 사용하고 Postgresql과 연동하여 API를 구축했다. GET 메서드만 사용하는 간단한 서버이기 때문에 크게 어려움은 없었다. 고민한 지점은 한가지가 있었다.
준비 된 데이터를 수집하는 주기는 어느정도로 잡아야 하는가?
주기를 잡은 후에 어떤 기준으로 데이터를 가져 올 것인가?
기존에 구상했던 것은 실제 웹 서버가 있고 사용자 행동 로그가 발생하는 것과 같은 방식이었다. 하지만 기준으로 발생 기준으로 잡을 컬럼이 애매했다. 그래서 ID 값을 따로 만들어 로그 발생 기준 컬럼을 임의로 생성해준 후, 1초에 10건씩 수집할 수 있도록 만들었다.
프로젝트 시리즈
데이터 파이프라인 프로젝트 #1 아키텍처 구성
최근 데이터 엔지니어링에 대해 다시 공부하고있다. 지금까지 공부한 내용들을 바탕으로 하나의 작은 프로젝트를 해보려고 한다. 그리고 프로젝트가 아닌, 프로젝트 진행 과정에서 나의 작업과
aky123.tistory.com
데이터 파이프라인 프로젝트 #2 인프라 구성
아키텍처가 나온 후 인프라 구성에 들어갔다. 이전 글에 적어 둔 것처럼 k3s위에 airflow를 올려서 사용 할 예정이다.k3s의 설치는 아주 간단하다. 내부적으로 설정을 잡아 줄 일이 있다면 복잡해지
aky123.tistory.com
데이터 파이프라인 프로젝트 #3 API 서버 구축
인프라 구성을 마친 후 데이터 Source가 되는 API 서버를 구축하기로 했다. 원래 DB에 저장 후 가져오는 방법을 사용하려고 했으나 그 방법은 자주 접해본 방법이기 때문에 API 서버를 직접 구축하고
aky123.tistory.com