2021년 3월 1일 월요일

Apache Phoenix - 기존 HBase테이블 Mapping


기존 HBase 테이블에 Phoenix 테이블을 매핑하는 법은 

기존에 있는 HBase 테이블과 똑같은 이름의 Phoenix테이블 또는 뷰를 생성한다.

또한 두 테이블 컬럼의 자료형이 일치해야하는데, 

특히 숫자의 경우 Hbase와 Phoenix의 표현방식이 다르므로 표현되기 어렵다. 


"Phoenix will flip the first bit so that negative values will sort before positive values. Because HBase sorts row keys in lexicographical order and negative value’s first bit is 1 while positive 0 so that negative value is ‘greater than’ positive value if we don’t flip the first bit. So if you stored integers by HBase native API and want to access them by Phoenix, make sure that all your data types are UNSIGNED types."

간단히 말하면 HBase에 맵핑된 컬럼의 숫자 값을 Phoenix에서 액세스하려면 

모든 데이터 유형이 UNSIGN 형식이여야 한다. 

Hbase : var - Integer

Phoenix : var - Integer 

일 경우 매핑이 되지 않는다.



예시 ]

HBase 테이블을 생성한다.

create 'T1', {NAME => 'F1', VERSIONS => 5}


매핑되는 Phoenix테이블을 생성한다.

CREATE VIEW t1 ( pk VARCHAR PRIMARY KEY, f1.val VARCHAR )

Or 

CREATE TABLE t1 ( pk VARCHAR PRIMARY KEY, val VARCHAR )



결과 확인 ]

1. Hbase 테이블 값 변경시 Phoenix 테이블 변경 값 확인

2. Phoenix 테이블 값 변경시 Hbase 테이블 변경 값 확인




참조 : 

https://phoenix.apache.org/faq.html

2021년 2월 21일 일요일

Apache HBase - Kafka to HBase with Nifi

 

[ 아키텍처 ]

Kafka -> Nifi -> HBase -> Python으로 데이터 Fetch 


[ Kafka ]

카프카의 토픽명과 컨슈머그룹명을 정해 데이터를 받는다.


[ Nifi ]

아래와 같은 프로세스 플로우로 구성할 수 있다.

























  • ConsumerKafka에 토픽명과 그룹명을 설정값으로 입력한다
  • UpdateAttribue와 ReplaceText는 해당 데이터가 나이파이에 적제되는 시간을 입력하 위함이므로 생략가능하다.
  • PutHBaseJson에 HBase TableName, Row Identifier, Column Family값을 입력한다. 네임스페이스가 있다면 NS:TableName과 값이 입력한다. Row Identifier값은 로우키가 되므로 유니크한 값으로 설정한다. 예시에선 $(createdAt}_${uuid}값으로 설정하였다. 



















HBase Client Service는 새로 생성한다.

예제는 클라우데라 매니저를 사용하므로 

/opt/cloudera/parcels/CDH/lib/hbase/conf/core-site.xml,

/opt/cloudera/parcels/CDH/lib/hbase/conf/hbase-site.xml

값을 입력한다.



















[ HBase ]

Kafka데이터를 받을 Hbase테이블을 생성한다

Ex) 

$ bin/hbase shell

shell) create 'NS:TableName', 'ColumFamily'



[ HBase 설정 ]

아래 두 설정 값은 False로 두자












[ Python ]

파이썬에서 HBase API를 제공해주는 라이브러리를 설치한다. 

$ pip install happybase


간단히 특정날짜의 HBase데이터를 가지고 와, List로 return하는 예제를 작성하였다.


import happybase

# connect
def connOpen() :
conn = happybase.Connection(host='12.345.67.88', port=9090,
table_prefix='NS',
table_prefix_separator=b':',
timeout=None,
autoconnect=False,
transport='framed',
protocol='compact'
)
return conn

def connClose(conn) :
conn.close()
# fetch
def fetchTwoDay(conn, startDate, endDate) :
conn.open()
table = conn.table('Table_Name')
data = table.scan(row_start=startDate, row_stop=endDate)
return list(data)

# USE CASE
#conn = connOpen()
#data = fetchTwoDay(conn, '2021-02-19', '2021-02-21')
#connClose(conn)
#print(data)


- 해당 라이브러리는 Hbase Thrift 서버와 연결하기 때문에 

기본 9000, Thrift2는 9090포트값을 설정 값으로 입력한다.





참고 URL :

https://my-bigdata-blog.blogspot.com/2017/04/nifi-to-hbase.html

happybase API URL : 

https://happybase.readthedocs.io/en/latest/



2021년 2월 14일 일요일

Apache Kafka - 카프카 특징


1. 확장성

분산시스템 적용에 용이하여 부하분산에 유동적이다.

예를 들어 서버 1대당 1000개의 메세지를 1초당 처리할 수 있는 3대의 서버로 구성된 클러스터가 있다. 

총 메세지 가용량은 3000/1s 인데 메세지가 늘어 4000개 메세지를 처리해야 할 때, 클러스터 내 브로커 수 1대만 늘리면 되므로 간단하게 문제를 처리 할 수 있다.



2. 페이지 캐시

리눅스커널은 자주쓰는 데이터의 I/O성능향상을 위해 페이지캐시를 사용하는데, 물리적메모리에 읽고쓰기 작업을 하지 않고 캐시메모리를 통해 이 작업을 수행한다. 

카프카는 빠른 엑세스를 위해 이러한 페이지캐시를 이용하게끔 되어있다. 


Java Heap할당과도 연관이 있는데 Memory가 8GB인 서버에 모든 메모리를 Heap메모리(또는 다른 어플리케이션에 점유된 메모리)에 할당하지 말고 적당량을 남겨 페이지캐시로 사용하여야 한다.  

vi /usr/local/kafka/bin/kafka-server.start.sh

KAFKA_HEAP_OPTS="-Xmx6G -Xms6G    #자바 힙메모리 설정값



3. 배치전송














전송시 I/O 작업이 빈번하면 네트워크 오버헤드가 발생하고 시간도 더 걸리므로

데이터를 묶음으로 보낼 수 있는 기능을 제공한다.


 

2021년 2월 2일 화요일

[ 쿠버네티스 ] 튜토리얼 따라하기1

 



minikube

minikube는 쿠버네티스를 로컬에서 실행할 수 있는 도구이다.

개인용컴퓨터에서 단일 노드 쿠버네티스 클러스터를 실행하여 예제 또는 단순개발작업을 수행 할 수 있다.


쿠버네티스 doc페이지에선 온라인 vm클러스터를 제공해 간단한 예제를 테스트할 수 있는 대화형 튜토리얼 환경을 제공하고 있다.

https://kubernetes.io/ko/docs/tutorials/kubernetes-basics/create-cluster/cluster-interactive/


해당 튜토리얼에서는 아래와 같은 그림의 작업을 수행한다.












1. 클러스터 생성하기

위의 URL에 들어가보면 ubuntu-18.04.4 리눅스 환경에 minikube를 미리 설치한 터미널로 테스트 할 수 있다. 

minikube 설치 참조 : https://minikube.sigs.k8s.io/docs/start/


[ minikube 명령어 ]

minikube version : minikube 버전확인

minikube start : 쿠버네티스 클러스터를 minikube를 통해 실행 


[ kubectl 명령어 ]

쿠버네티스 커맨드 라인도구인 kubectl을 사용하면 쿠버네스트 클러스터에 대한 명령(애플리케이션 배포, 리소스검사/관리, 로그 등)을 실행 할 수 있다. 이 또한 대화형 터미널에 이미 설치 되어있다.

kubectl 설치 참조 : https://kubernetes.io/ko/docs/tasks/tools/install-kubectl/


kubectl version : client와 server 2가지 버전이 나오는데, client버전은 사용하고 있는 kubectl버전을 가리키고, server버전은 master노드에 설치된 kubectl 버전을 가리킨다. master노드 개념은, 쿠버네티스는 마스터노드와 워커노드로 구분되는데 마스터 노드가 워커노드들을 컨트롤 한다 정도로 알자.


kubectl cluster-info : 클러스터 상세정보 

Kubernetes master is running at https://172.17.0.30:8443

KubeDNS is running at https://172.17.0.30:8443/api/v1/namespaces/kube-system/services/kube-dns:dns/proxy


kubectl get nodes : 애플리케이션을 사용할 수 있는 노드들의 정보

NAME       STATUS     ROLES    AGE   VERSION

minikube   NotReady   master   10s   v1.17.3




2. 앱배포하기


Deployment

클러스터를 실행하면, 그 위에 컨테이너화된 애플리케이션을 배포 할 수 있다. 이를 디플로이먼트를 통해 실행하며 이후 마스터가 개별 노드에 실행되도록 스케줄 한다. 

또한 디플로이먼트 컨트롤러가 애플리케이션 인스턴스들을 지속적으로 모니터링하여 장애시 다른 노드의 인스턴스로 교체한다.













[ kubectl 명령어 ]


kubectl create deployment 이름 --image=다운로드 이미지위치

디플로이먼트를 생성한다. 아래 명령어로 쿠버네티스 튜토리얼에서 제공하는 샘플 디플로이먼트를 생성한다.

kubectl create deployment kubernetes-bootcamp --image=gcr.io/google-samples/kubernetes-bootcamp:v1


kebectl get deployments : 디플로이먼트 리스트 확인

NAME                  READY   UP-TO-DATE   AVAILABLE   AGE

kubernetes-bootcamp   1/1     1            1           6s


kubectl proxy : 클러스터 개인의 네트워크로 전달하는 프록시를 만든다. 프록시는 control-c를 눌러 종료하며, 실행 중 출력이 표시된지 않는다.




3. 앱조사하기


파드








파드는 하나 이상의 애플리케이션의 그룹으로 쿠버네티스의 추상적인 개념이다. 2.앱배포하기에서 디플로이먼트를 통해 애플리케이션을 생성했다. 이때 애플리케이션 인스턴스에 파드는 자동생성된다. 

파트는 쿠버네티스 플랫폼 상에서 최소단위이며, 각 파드는 스케쥴 되어진 노드로 묶인다. 노드가 소멸되거나 삭제되기 전까지 그 노드에 유지된다.

같은 파드내 애플리케이션은 아래와 같은 리소스를 공유한다.

  • 같은 공유 스토리지 볼륨
  • 클러스터 IP와 네트워킹, 포트
  • 컨테이너 이미지, 각 컨테이너가 동작하는 방식에 대한 정보



노드













노드는 파드를 담고있으며, 같은 말로 파드는 언제나 노드 안에서 동작한다. 하나의 노드는 여러 개의 파드를 가질 수 있고, 이러한 노드는 마스터에 의해 관리된다. 쿠버네티스 마스터는 클러스터 내 노드를 통해서 파드에 대한 스켈쥴링을 자동처리한다.

마스터 -> 노드 -> 파드





https://kubernetes.io/ko/docs/tutorials/

2021년 2월 1일 월요일

[ Algorithm ] 같은 숫자는 싫어


문제 ]

배열 arr가 주어집니다. 배열 arr의 각 원소는 숫자 0부터 9까지로 이루어져 있습니다. 이때, 배열 arr에서 연속적으로 나타나는 숫자는 하나만 남기고 전부 제거하려고 합니다. 배열 arr에서 제거 되고 남은 수들을 return 하는 solution 함수를 완성해 주세요. 단, 제거된 후 남은 수들을 반환할 때는 배열 arr의 원소들의 순서를 유지해야 합니다.



제한사항

배열 arr의 크기 : 1,000,000 이하의 자연수

배열 arr의 원소의 크기 : 0보다 크거나 같고 9보다 작거나 같은 정수


입출력 예

arr                 answer

[1,1,3,3,0,1,1] [1,3,0,1]

[4,4,4,3,3]         [4,3]





풀이 ]

public class Solution {

    public int[] solution(int []arr) {

        ArrayList<Integer> tempList = new ArrayList<Integer>();

        int preNum = 10;

        for(int num : arr) {

            if(preNum != num)

                tempList.add(num);           

            preNum = num;

            

        }    


        int[] answer = new int[tempList.size()];

        for(int i=0; i<answer.length; i++) {

            answer[i] = tempList.get(i).intValue();

        }

        return answer;

    }

}

2021년 1월 17일 일요일

Hive [10] - 날짜관련 함수

 

1. 날짜포맷 변환


from_unixtime(bigint unixtime, string format)

return값 : string


unix타임스탬프 값을 정해진 날짜형식에 맞추어 출력한다.

- select from_unixtime(1323308938, 'yyyy-MM-dd') from dual;


20210101포맷을 2021-01-01포맷으로 날짜형식변환도 가능하다.

- select from_unixtime(unix_timestamp('20210101, 'yyyyMMdd'), 'yyyy-MM-dd') from dual;



2. 특정 값 가져오기


날짜 부분만 리턴

select to_date('2021-01-13 10:11:34') from dual;

-> 2021-01-13


연도 부분만 리턴

select year('2021-01-13 10:11:34') from dual;

-> 2021


월 부분만 리턴

select month('2021-01-13 10:11:34') from dual;

-> 1


일 부분만 리턴

select day('2021-01-13 10:11:34') from dual;

-> 13


시간 부분만 리턴

select hour('2021-01-13 10:11:34') from dual;

-> 10


분 부분만 리턴

select minute('2021-01-13 10:11:34') from dual;

-> 11


초 부분만 리턴

select second('2021-01-13 10:11:34') from dual;

-> 34


날짜의 현재 주 수 리턴

select weekofyear('2021-01-13 10:11:34') from dual;

-> 2



3. 날짜 계산 함수

* yyyy-MM-dd 형식으로 입력


날짜비교 함수 

datediff(string enddate, string startdate)

return : int

ex ] select datediff('2021-01-23','2021-01-15')

-> 7


날짜 증가 함수 

date_add(stringdate, int days)

return : string 

ex ] select date_add('2021-01-23',20)

->2021-02-12


날짜 감소 함수 

date_sub(stringdate, int days)

return : string 

ex ] select date_add('2021-01-23',10)

->2021-01-13












from_unixtime(unix_timestamp('20140228' ,'yyyyMMdd'), 'yyyy-MM-dd')

[ Algorithm ] 가운데 글자 가져오기


문제 ] 

단어 s의 가운데 글자를 반환하는 함수. 단어의 길이가 짝수라면 가운데 두글자를 반환하면 됩니다.

sreturn
abcdec
qwerwe



제출 ]

class Solution {

    public String solution(String s) {

        int len = s.length();

        int idx = len / 2;

        return (len%2==0) ? s.substring(idx-1, idx+1) : s.substring(idx, idx+1);

    }

}



풀이 ]

substring 함수를 이용하여 글자의 길이가 홀수면 한글자, 짝수면 두 글자를 반환.

substring대신에 String.split("") 함수를 이용해 String을 Array로 형변환 하여 진행 할 수 도 있다.