'2025/04 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록2025/04 (15)

엔지니어 블로그

[DayCar] 리팩토링 일지 - 3편: 스크래퍼 개발

아키텍처가 나왔으니 개발을 진행합니다.1. 크롤러 설계 방향수집 대상: 보배드림, K카 등 주요 중고차 거래 사이트설계 목표비동기 기반의 효율적인 수집관심사 분리(fetch / parse / load)사이트 추가 시 최소 변경만으로 확장 가능2. 디렉토리 구조scraper/├── core/ # 공통 fetch, parse, load 인터페이스 정의│ ├── fetcher.py│ ├── parser.py│ ├── loader.py│ └── __init__.py├── fetcher/ # 실제 페이지 요청 구현 (Playwright 등)│ └── playwright_fetcher.py├── parser/ # 사이트별 파서..

개인 프로젝트/DayCar 프로젝트 2025. 4. 17. 19:31

[DayCar] 리팩토링 일지 - 2편: 처음으로 돌아가기

이전 글에서 DB 연결 코드를 손 봤었는데, 암만 생각해도 이전과 동일한 구조를 벗어나 좀 더 확장된 아키텍처를 가져가고 싶은 욕심에 아키텍처를 전면 수정하여 진행하기로 했습니다.각 단계에 대한 설명은 아래와 같습니다.1. 데이터 수집 - Python기존의 데이터 수집은 Python의 Requests,BeautifulSoup을 통해 진행됐습니다. 완전 동기 방식으로 수집 되고 있어 수집 속도가 매우 느렸습니다. 속도 향상을 위해 async 방식과 Playwright 라이브러리를 선택했습니다. Playwright는 headless browser 기반이며, 비동기 병렬 처리에 특화된 도구입니다. 병렬 수집을 도입하여 더욱 빠른 속도의 수집을 기대하고있습니다.2. Buffer를 통한 디커플링 - Redis병렬..

개인 프로젝트/DayCar 프로젝트 2025. 4. 16. 15:04

[DayCar] 리팩토링 일지 - 1편: 디렉토리 구조와 DB 연결 손보기

이전에 진행했던 프로젝트를 리펙토링 하려고 합니다. 4년 전에 프로젝트를 진행했는데, 구동되는 것에만 너무 매몰되어 작업하여 코드 구조나 확장성에는 큰 신경을 쓰지 않았습니다. 그래서 오늘부터 리팩토링 작업에 들어갑니다. 이번 포스트에서는 디렉토리 구조 정리와 DB 연결 코드 개선에 집중했습니다.1. 디렉토리 구조 개편디렉토리 구조 변경db 연결 손보기크롤러 코드 손보기(제일 문제)Django -> fastAPI로 변경먼저 프로젝트 구조입니다.왼쪽은 당시의 디렉토리, 오른쪽은 리팩토링 이후의 구조입니다:처음엔 나름 분리했다고 생각했지만...디렉토리 안에 그냥 파일만 덩그러니 있고, 역할 구분도 전혀 안 돼 있던 상황이었습니다.✅ 포인트기능별로 명확히 디렉토리 분리크롤링, 처리, 웹 기능이 어디에 있는지 ..

개인 프로젝트/DayCar 프로젝트 2025. 4. 10. 23:19

[CodingTest] LinkedList 문제

LinkedList 문제를 풀다가 코드를 개선하는 과정이 있어 글로 남깁니다.문제Q. 다음과 같은 두 링크드 리스트를 입력받았을 때, 합산한 값을 반환하시오. 예를 들어 아래와 같은 링크드 리스트를 입력받았다면,각각 678, 354 이므로 두개의 총합678 + 354 = 1032 를 반환해야 한다.단, 각 노드의 데이터는 한자리 수 숫자만 들어갈 수 있다.풀이그냥 단순히 순회하면서 값을 list에 담고, 자리수에 맞춰서 수를 만들고 더한다는 아이디어로 시작했습니다. 그래서 코드가 이모양입니다... 너무 생각없이 한 것 같았습니다. 중복되는 것은 왜이리 많으며 그냥 의식의 흐름대로 했던 것 같습니다. 바로 반성하며 코드를 재구성해보기로 했습니다.def get_sum_list(): list_1 = [..

알고리즘 2025. 4. 10. 11:22

[DE] Batch, Streaming, MicroBatch

ETL에서는 데이터 수집 및 처리 주기(빈도)가 매우 중요합니다. 수집 주기에 따라 어떤 처리 방식을 선택할지 달라지며, 대표적으로는 다음과 같은 세 가지 방식이 있습니다.BatchStreamingMicroBatch이번 글에서는 각 방식의 개념과 적절한 사용 사례를 정리해보려 합니다.1. Batch란?Batch는 데이터를 일정 시간 동안 모아서 한 번에 처리하는 방식입니다. 예를 들어, 매일 자정에 하루치 로그를 처리하거나, 데이터 양이 일정 기준을 넘었을 때 작업이 실행됩니다.특징데이터를 모아두었다가 일정 주기 또는 임계 데이터량을 기준으로 처리처리 시점에 시스템에 부하가 집중될 수 있음후속 작업이 처리 완료를 기다려야 하는 병목 가능성 존재사용 예시유저 행동 로그 기반 일간, 주간, 월간 보고서주기적..

글공부 2025. 4. 8. 12:01

[DataStreaming] 2.환경 구축(kafka)

GCP에 Kafka 3노드 클러스터 구축하기 (Terraform + Manual 설치)이번 프로젝트에서는 GCP 인스턴스를 활용해 Kafka 클러스터를 직접 구축해보았습니다. Terraform을 이용해 인프라를 구성하고, 각 인스턴스에 Kafka를 수동으로 설치하여 3개의 브로커로 구성된 Kafka 클러스터 환경을 만들었습니다.1. 인프라 사양 및 구성인프라는 다음과 같은 사양으로 구성했습니다. 무료 크레딧을 활용할 수 있었기 때문에 쾌적한 개발 환경을 위해 다소 여유 있는 스펙을 선택했습니다. Terraform을 이용해 GCP에 VM 인스턴스를 생성했습니다.Type: e2-standard-4vCPU: 4Memory: 16GBNode 수: 32. Kafka 설치 및 설정 (각 노드에서 진행)Java 설치..

개인 프로젝트/Data Streaming 프로젝트 2025. 4. 7. 17:00

[Spark] Spill로 인한 성능 저하

Spark의 대표적인 장애인 Spill을 알아보고 어떤 설정을 통해 성능 튜닝이 가능한지 알아보려고 합니다. Spill을 알아보기 전에 Shuffle,Partition의 개념을 먼저 알아보겠습니다.PartitionPartition은 RDD를 구성하는 최소 단위 객체입니다. Spark의 성능,리소스 사용을 좌우하는 중요한 개념입니다. Partition은 여러 물리 노드에서 나누어 작업합니다. Spark의 최소 작업 단위를 Task라고 하고, 1개의 Task는 1개의 Partition에서 처리합니다. 또 1개의 Task는 1Core가 처리합니다. 즉, 1Task = 1Core = 1Partition입니다.Partition의 수는 Spark 성능을 크게 좌우합니다. Partition의 수가 Core수를 결정하..

Spark 2025. 4. 6. 18:53

[Spark] Lazy Evaluation

Lazy Evaluation 이란?Spark에는 Lazy Evaluation이라는 기능이 있습니다. Transformation 작업을 실행하더라도 실제 변환은 Action 작업이 진행될 때 까지 미루는 기능입니다. 예를 들어 df.filter() 작업을 수행하더라도 실제 데이터 변환 작업은 진행되지 않고, df.show()를 수행할 때 변환이 진행됩니다.Lazy Evaluation을 사용하는 이유Lazy Evaluation을 사용하는 이유는 효율적인 자원 활용을 위함입니다. 데이터 변환을 미루는 행위를 통해 전체 DataFrame을 메모리에 올리는 작업을 피할 수 있습니다. 조금 더 자세히는 매 변환 작업마다 DataFrame을 메모리로 가져오는 것을 피하여 자원 활용의 효율성을 높이기 위함입니다.또 다..

Spark 2025. 4. 6. 15:21

이전 Prev 1 2 Next 다음

목록2025/04 (15)

엔지니어 블로그

티스토리툴바