엔지니어 블로그

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

목록전체 글 (87)

엔지니어 블로그

[컴퓨터 밑바닥의 비밀] 컴파일러

컴파일러는 어떻게 동작하는가?1.컴파일러는 단순한 프로그램이다컴파일러는 고수준언어를 저수준 언어로 번역하는 프로그램이다. 텍스트 형태로 작성된 소스파일을 컴파일러에 input하면 CPU가 실행할 수 있는 기계어로 작성된 실행파일을 output 한다. CPU는 추상적인 명령어를 이해할 수 없기때문에 이러한 작업이 동반된다.2.토큰 추출하기컴파일러는 소스코드를 번역하기 위해 토큰을 추출한다. 토큰을 추출하기 위해서는 먼저, 각 항목을 잘게 쪼갠다. 이후 각 항목의 정보와 추가정보를 결합하고 이것을 토큰이라고 부른다. 이렇게 토큰을 추출하는 과정을 어휘분석(lexical analysis)라고 부른다.3.토큰이 표현하고자 하는 의미토큰을 추출한 이후에는 전달하고자 하는 토큰 의도를 표현해야한다.while (표현..

글공부 2025. 3. 7. 08:57

데이터 파이프라인 프로젝트 #4 아키텍처 변경

프로젝트를 하던 중 지금 토이 프로젝트를 하고있지만, 현업에서 진행하는 프로젝트라면 지속적으로 쌓이는 데이터의 양이 엄청날 것 같았다. 그래서 현재 Spark에서 Bigquery로 데이터를 전송하는 부분을 손보게 되었다. 이전 아키텍처와 거의 동일하고, 중간에 Cloud Storage가 들어갔다. 하단의 Base Data Load 부분은 정적 데이터의 적재를 뜻한다. 실시간으로 생성되는 데이터가 아닌, 현업이라면 DB에 이미 존재했어야 할 유저 정보, 지리정보 등의 데이터가 포함된다. 이 데이터를 업로드 하는 부분에서 고민이 생겼다. 현업에서 처리한다면 어떻게 했어야할까??Static한 데이터기 때문에 변화가 자주 없는 탓에 GCP 콘솔에서 직접 업로드 할까 생각했지만, 현업이라는 상황을 가정해봤을 때..

개인 프로젝트/Data Pipeline 프로젝트 2025. 3. 6. 18:39

[컴퓨터 밑바닥의 비밀] 프로그래밍 언어와 컴파일러,인터프리터 언어의 발생

CPU는 똑똑한 바보CPU는 스위치의 개폐만으로 0,1을 표현하고 더 나아가 Boolean 논리를 나타낼 수 있는 것에서 착안하여 만들어졌다. CPU는 생각보다 단순하다. A 지점에서 데이터를 가져와 간단한 연산 후 B 지점으로 옮기는 작업만 수행할 뿐이다. 하지만 굉장한 장점 하나가 단순함을 모두 상쇄한다. CPU는 속도가 매우 빠르다. 인간의 계산 속도를 아득히 뛰어넘을 정도다. 이러한 장점을 토대로 CPU는 인간에게 제 2의 두뇌가 되어줬다.인간은 제 2의 두뇌, CPU를 제어하고 작업을 시키기 위해 CPU의 언어를 사용해야했다. CPU가 인간의 언어를 이해할 수 없기 때문이다. 그래서 0과1로 작성된 천공카드를 통해 CPU에게 명령어를 전달했고, CPU는 명령어를 수행했다. 이 0,1로 작성된 내..

글공부 2025. 3. 6. 11:20

[Error] Cloud Storage parquet 추가 안됨

문제상황현재 spark에서 Cloud Storage로 parquet를 업로드 중이다. 근데 업로드 할 때마다 새로운 폴더가 생성되고 그 하위에 parquet가 저장되어 BigQuery에서 다수의 parquet를 동시에 읽을수가 없다. 동일한 경로를 지정하면 already exist 에러가 발생했다. 그래서 찾아본 것이 .mode("append") 옵션이다. 해결간단하게도 spark가 CloudStroage에 parquet를 저장할 때 옵션 하나만 추가해주면 된다.df.write.mode("append").format("parquet").save(parquet_path) 이후 다시 parquet를 추가해보면 아래처럼 한 폴더에 여러 parquet가 저장될 수 있다.

에러와 마주했을때 2025. 3. 5. 14:44

[Error] Spark on K8S 실행 에러

Spark on k8s 실행을 위해 이미지 빌드 후 실행을 하니 다음과 같은 에러가 발생했다.Exception in thread "main" io.fabric8.kubernetes.client.KubernetesClientException: JcaPEMKeyConverter is provided by BouncyCastle, an optional dependency. To use support for EC Keys you must explicitly add this dependency to classpath 찾아보니 Spark Kubernetes Cluster에 대해 Spark의 Scala 셸을 사용하기 위해서는 BouncyCastle이 외부 종속성으로 포함되어야 한다고 한다. 따라서 외부 종속성을 JA..

에러와 마주했을때 2025. 2. 28. 14:55

데이터 파이프라인 프로젝트 #3 API 서버 구축

인프라 구성을 마친 후 데이터 Source가 되는 API 서버를 구축하기로 했다. 원래 DB에 저장 후 가져오는 방법을 사용하려고 했으나 그 방법은 자주 접해본 방법이기 때문에 API 서버를 직접 구축하고 데이터를 수집하는 방식으로 결정했다. FastAPI를 사용하고 Postgresql과 연동하여 API를 구축했다. GET 메서드만 사용하는 간단한 서버이기 때문에 크게 어려움은 없었다. 고민한 지점은 한가지가 있었다.준비 된 데이터를 수집하는 주기는 어느정도로 잡아야 하는가?주기를 잡은 후에 어떤 기준으로 데이터를 가져 올 것인가?기존에 구상했던 것은 실제 웹 서버가 있고 사용자 행동 로그가 발생하는 것과 같은 방식이었다. 하지만 기준으로 발생 기준으로 잡을 컬럼이 애매했다. 그래서 ID 값을 따로 만..

개인 프로젝트/Data Pipeline 프로젝트 2025. 2. 28. 13:26

[Leetcode] 49. Group Anagrams

풀이배열 내의 단어들이 Anagrams인 것들 끼리 묶어서 2차원 배열을 리턴하면 되는 문제다.for문을 이용해서 각각의 요소를 정렬한 후 dict 내에 sorted_str : [str1,str2] 와 같은 형태로 저장하고 value 값들을 list에 담아 리턴하는 형식으로 문제를 풀었다. 코드class Solution: def groupAnagrams(self, strs: List[str]) -> List[List[str]]: dict = {} ans = [] for str in strs: sort_str = "".join(sorted(str)) if sort_str in dict.keys(): ..

알고리즘 2025. 2. 27. 18:35

[자료구조] Queue

Queue1.Queue란 무엇인가?Queue는 선입선출(FIFO) 논리 기반으로 데이터를 저장하기 위해 개발된 선형적 자료구조다. Stack과 형태적으로 유사하다. 유일한 차이점은 Queue는 양 끝단이 열려있다는 것이다. 한쪽 끝으로는 데이터를 추가하고 반대쪽 끝으로는 데이터를 제거하는데 사용된다. 이때 데이터를 추가하는 작업을 Enque,제거하는 작업을 Deque 라고 한다.2.Queue vs ArrayQueue는 Array와도 동일한 형태를 보인다. 하지만 Array가 각각의 요소를 Index로 접근할 수 있는 것에 비해 Queue는 불가능하다. 오로지 양 끝단에서 데이터를 추가하거나 삭제하는 것만 가능하다.3.Queue의 시간복잡도Queue는 빅오 표기법으로 시간복잡도가 O(1)이다. Queue는..

자료구조 2025. 2. 27. 11:35

이전 Prev 1 2 3 4 5 6 7 8 ··· 11 Next 다음

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

엔지니어 블로그

목록전체 글 (87)

엔지니어 블로그

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역