Posts
DataEngineer
Cancel

이번 글에서는 스프링 부트와 AWS로 혼자 구현하는 웹 서비스라는 책 3장에서 스프링 부트에서 JPA로 데이터베이스를 다루는 내용을 정리한다. 1. JPA란? JPA는 자바 표준 ORM(Object Relation Mapping)으로 어떻게하면 데이터베이스(어떻게 데이터를 저장할지에 초점)와 객체지향(메시지를 기반으로 기능과 속성을 한 곳에서 관리하...

kafka 스터디를 하면서 producer와 consumer를 spring boot로 구현하는 경우가 많다고 알고있는데 spring은 과거 web개발 프로젝트 때 사용을 해봤지만, spring boot는 새로 배워야할거 같아서 개발자 이동욱님의 스프링 부트와 AWS로 혼자 구현하는 웹 서비스라는 책도 읽고있다. 책이 실습 형식으로 구성되어있어 어렵지 ...

게임 데이터 실시간 처리를 위해 Kafka의 구조와 개발 방법을 익히기 위해 팀원과 스터디를 진행하기로해 앞으로 블로그에 책의 내용을 정리 요약하여 발표할 계획이다. 우선 1장에서 카프카에 간단한 소개와 2장에서는 카프카 설치에 관한 내용으로 간단히 진행해 보기로한다. 1.1 카프카의 탄생 배경 카프카 도입후 아키텍쳐 변화 (출처:https:...

1. Docker Run이란? Docker Run은 이름에서 알수 있듯이 Docker 이미지로 컨테이너를 만들어 실행 시키는 명령어로 Docker start는 기존에 생성되어있는 컨테이너를 실행시키는 반면 Run은 이미지로부터 컨테이너를 새로 만든다는 차이점이있다. 우선 기본 명령어는 아래와 같다. docker run [OPTIONS] IMAGE[...

이번 글은 빅데이터를 지탱하는 기술이라는 책을 읽고 공부한 내용을 정리한 내용이다. 이 책에서는 대용량 데이터를 빠르게 집계하는 방법으로 압축과 분산의 방식으로 데이터를 처리하는 방법을 소개한다. 여기서 압축은 컬럼지향 데이터베이스로 컬럼을 압축하여 데이터를 저장하는 데이터베이스를 소개하며 분산은 MPP(Massive Parallel Processi...

1.Why Kubernetes?. IT 서비스의 사용량이 항상 같지 않기 때문에 서버 자원을 효율적으로 활용하기 위해 kubernenes의 가상화 서비스를 사용한다.(AutoScaling 가능) Auto Healling 기능으로 서비스의 장애가 발생하면 남아있는 여분의 서버로 알아서 서비스를 유지시켜줌. 서비스의 배포및 업데이트를 자동화 ...

1.Tez와 MapReduce의 동작 차이. MapReduce는 크게 데이터를 원하는 Key-Value 형태로 만드는 작업인 Map과 Map 작업이 끝난 데이터를 합치는 Reduce 작업으로 나눌 수 있는데 이 Reduce 작업이 끝나고 중간 결과를 HDFS에 저장한 뒤 다시 Map과 Reduce 작업을 반복하는 과정에서 Disk I/O가 발생하게 ...

0. Fact Table과 Demension Table이란? 스타 스키마와 눈송이 스키마를 설명하기 앞서 Fact Table과 Demension Table에 대해 정리가 필요할것 같아 정리한다. Fact Table 수치를 가지고 있는 Table로 집계(Sum,Average,Division,Minus 등 다양한 함수)가 가능한 Table이다 Tablea...

Informatica PowerCenter가 MetaDB로 Postgresql을 지원하면서 관세청에 PowerCenter가 납품 될 때 Postgresql과 같이 납품이 되어 Postgresql을 설치했다. Postgresql 설치를 하면서 조금 공부를 한 내용을 정리한다. 0. 특징. 프로세스 기반의 DBMS이다. ...

MapR 사업성 검토를위해 기존에 사업을 진행하고 있는 Cloudera와 비교 자료를 작성해보았다. 1. 설정 및 설치 MAPR 과 CLOUDERA 모두 Web UI 설치를 지원하여 간단하게 설치를 할 수 있습니다. MAPR은 자체적인 Filesystem을 사용하기 때문에 unmount된 디스크가 필요하다는 단점이 있습니다. MAPR은 ...