2021년 3월 5일 금요일

[ Zookeeper ] zookeeper.out Error & Unable to load database on disk


[ ERROR 1 ]

zookeeper.out파일은 zookeeper server의 로그내역을 포함한 파일이다.

해당파일의 크기가 커지면서 디렉토리의 파일사이즈 가용량이 넘어서 

bash: cannot create temp file for here-document: No space left on device

에러메세지가 뜬다.


[ 해결 1 ]

아래 파일로 설정값을 변경한다.

/zookeeper/conf/log4j.properties

log4j.rootLogger=INFO, ROLLINGFILE
log4j.appender.ROLLINGFILE.File=${zookeeper.log.dir}/zookeeper.log 
log4j.appender.ROLLINGFILE.MaxFileSize=10MB
log4j.appender.ROLLINGFILE.MaxBackupIndex=10

해당파일을 최대 10MB 사이즈로 최신데이터를 Rotate시킨다. 


[ ERROR2 ]

Zookeeper서버의 트랜잭션 로그에 있는 일부 파일이 손상되어

서버가 DB를 읽지 못한다. 

노드실행시 작성되는 내용을 /version-2/acceptedEpoch파일에 업데이트 실패시

URL : https://issues.apache.org/jira/browse/ZOOKEEPER-2307


에러메세지

ERROR Unable to load database on disk 

(org.apache.zookeeper.server.quorum.QuorumPeer)

...

...


[ 해결 2 ]

에러로 인해 zookeeper/version-2 안의

파일설정값들이 일관성이 없는 상태

  • 해당 디렉토리 폴더를 backup
  • zookeeper중지 $ /zookeeper/bin/zkServer.sh stop
  • zookeeper/version-2/ 모든파일 삭제 
  • zookeeper시작 $/ zookeeper/bin/zkServer.sh start
  • 상태확인 $ /zookeeepr/bin/zkServer.sh status


참조 

2021년 3월 1일 월요일

Apache Phoenix - Thick Server 접속 Java예제코드


package com;


import java.sql.*;

import java.util.HashMap;


public class App 

{

    private static Connection connect;

    private static Statement statement;

    private static PreparedStatement preparedStatement;

    private static ResultSet resultSet;

    private static String serverURL;


    static {

        connect = null;

        statement = null;

        preparedStatement = null;

        resultSet = null;

        serverURL = "jdbc:phoenix:12.234.56.78:2181:/hbase";

    }


    public static Connection connect() throws Exception {

        Class.forName("org.apache.phoenix.jdbc.PhoenixDriver");

        connect = DriverManager.getConnection(serverURL);

        return connect;

    }


    public static HashMap<Integer, String> getSelect() throws Exception {

        

        connect = connect();

        final HashMap<Integer, String> record = new HashMap<Integer, String>();

        preparedStatement = connect.prepareStatement("select * from TEST;");

        resultSet = preparedStatement.executeQuery();

        

        while (resultSet.next()) {

            Integer myKey = resultSet.getInt(1);

            String myColumn = resultSet.getString(2);

            record.put(myKey, myColumn);

        }


        connect.close();

        return record;

    }


    public static void main( String[] args )

    {

        try {

            HashMap<Integer, String> record = new HashMap<Integer, String>();

            record = getSelect();

            System.out.println(record);

        } catch (Exception e) {

            e.printStackTrace();

        }

    }

}



Apache Phoenix - 기존 HBase테이블 Mapping


기존 HBase 테이블에 Phoenix 테이블을 매핑하는 법은 

기존에 있는 HBase 테이블과 똑같은 이름의 Phoenix테이블 또는 뷰를 생성한다.

또한 두 테이블 컬럼의 자료형이 일치해야하는데, 

특히 숫자의 경우 Hbase와 Phoenix의 표현방식이 다르므로 표현되기 어렵다. 


"Phoenix will flip the first bit so that negative values will sort before positive values. Because HBase sorts row keys in lexicographical order and negative value’s first bit is 1 while positive 0 so that negative value is ‘greater than’ positive value if we don’t flip the first bit. So if you stored integers by HBase native API and want to access them by Phoenix, make sure that all your data types are UNSIGNED types."

간단히 말하면 HBase에 맵핑된 컬럼의 숫자 값을 Phoenix에서 액세스하려면 

모든 데이터 유형이 UNSIGN 형식이여야 한다. 

Hbase : var - Integer

Phoenix : var - Integer 

일 경우 매핑이 되지 않는다.



예시 ]

HBase 테이블을 생성한다.

create 'T1', {NAME => 'F1', VERSIONS => 5}


매핑되는 Phoenix테이블을 생성한다.

CREATE VIEW t1 ( pk VARCHAR PRIMARY KEY, f1.val VARCHAR )

Or 

CREATE TABLE t1 ( pk VARCHAR PRIMARY KEY, val VARCHAR )



결과 확인 ]

1. Hbase 테이블 값 변경시 Phoenix 테이블 변경 값 확인

2. Phoenix 테이블 값 변경시 Hbase 테이블 변경 값 확인




참조 : 

https://phoenix.apache.org/faq.html

2021년 2월 21일 일요일

Apache HBase - Kafka to HBase with Nifi

 

[ 아키텍처 ]

Kafka -> Nifi -> HBase -> Python으로 데이터 Fetch 


[ Kafka ]

카프카의 토픽명과 컨슈머그룹명을 정해 데이터를 받는다.


[ Nifi ]

아래와 같은 프로세스 플로우로 구성할 수 있다.

























  • ConsumerKafka에 토픽명과 그룹명을 설정값으로 입력한다
  • UpdateAttribue와 ReplaceText는 해당 데이터가 나이파이에 적제되는 시간을 입력하 위함이므로 생략가능하다.
  • PutHBaseJson에 HBase TableName, Row Identifier, Column Family값을 입력한다. 네임스페이스가 있다면 NS:TableName과 값이 입력한다. Row Identifier값은 로우키가 되므로 유니크한 값으로 설정한다. 예시에선 $(createdAt}_${uuid}값으로 설정하였다. 



















HBase Client Service는 새로 생성한다.

예제는 클라우데라 매니저를 사용하므로 

/opt/cloudera/parcels/CDH/lib/hbase/conf/core-site.xml,

/opt/cloudera/parcels/CDH/lib/hbase/conf/hbase-site.xml

값을 입력한다.



















[ HBase ]

Kafka데이터를 받을 Hbase테이블을 생성한다

Ex) 

$ bin/hbase shell

shell) create 'NS:TableName', 'ColumFamily'



[ HBase 설정 ]

아래 두 설정 값은 False로 두자












[ Python ]

파이썬에서 HBase API를 제공해주는 라이브러리를 설치한다. 

$ pip install happybase


간단히 특정날짜의 HBase데이터를 가지고 와, List로 return하는 예제를 작성하였다.


import happybase

# connect
def connOpen() :
conn = happybase.Connection(host='12.345.67.88', port=9090,
table_prefix='NS',
table_prefix_separator=b':',
timeout=None,
autoconnect=False,
transport='framed',
protocol='compact'
)
return conn

def connClose(conn) :
conn.close()
# fetch
def fetchTwoDay(conn, startDate, endDate) :
conn.open()
table = conn.table('Table_Name')
data = table.scan(row_start=startDate, row_stop=endDate)
return list(data)

# USE CASE
#conn = connOpen()
#data = fetchTwoDay(conn, '2021-02-19', '2021-02-21')
#connClose(conn)
#print(data)


- 해당 라이브러리는 Hbase Thrift 서버와 연결하기 때문에 

기본 9000, Thrift2는 9090포트값을 설정 값으로 입력한다.





참고 URL :

https://my-bigdata-blog.blogspot.com/2017/04/nifi-to-hbase.html

happybase API URL : 

https://happybase.readthedocs.io/en/latest/



2021년 2월 14일 일요일

Apache Kafka - 카프카 특징


1. 확장성

분산시스템 적용에 용이하여 부하분산에 유동적이다.

예를 들어 서버 1대당 1000개의 메세지를 1초당 처리할 수 있는 3대의 서버로 구성된 클러스터가 있다. 

총 메세지 가용량은 3000/1s 인데 메세지가 늘어 4000개 메세지를 처리해야 할 때, 클러스터 내 브로커 수 1대만 늘리면 되므로 간단하게 문제를 처리 할 수 있다.



2. 페이지 캐시

리눅스커널은 자주쓰는 데이터의 I/O성능향상을 위해 페이지캐시를 사용하는데, 물리적메모리에 읽고쓰기 작업을 하지 않고 캐시메모리를 통해 이 작업을 수행한다. 

카프카는 빠른 엑세스를 위해 이러한 페이지캐시를 이용하게끔 되어있다. 


Java Heap할당과도 연관이 있는데 Memory가 8GB인 서버에 모든 메모리를 Heap메모리(또는 다른 어플리케이션에 점유된 메모리)에 할당하지 말고 적당량을 남겨 페이지캐시로 사용하여야 한다.  

vi /usr/local/kafka/bin/kafka-server.start.sh

KAFKA_HEAP_OPTS="-Xmx6G -Xms6G    #자바 힙메모리 설정값



3. 배치전송














전송시 I/O 작업이 빈번하면 네트워크 오버헤드가 발생하고 시간도 더 걸리므로

데이터를 묶음으로 보낼 수 있는 기능을 제공한다.


 

2021년 2월 2일 화요일

[ 쿠버네티스 ] 튜토리얼 따라하기1

 



minikube

minikube는 쿠버네티스를 로컬에서 실행할 수 있는 도구이다.

개인용컴퓨터에서 단일 노드 쿠버네티스 클러스터를 실행하여 예제 또는 단순개발작업을 수행 할 수 있다.


쿠버네티스 doc페이지에선 온라인 vm클러스터를 제공해 간단한 예제를 테스트할 수 있는 대화형 튜토리얼 환경을 제공하고 있다.

https://kubernetes.io/ko/docs/tutorials/kubernetes-basics/create-cluster/cluster-interactive/


해당 튜토리얼에서는 아래와 같은 그림의 작업을 수행한다.












1. 클러스터 생성하기

위의 URL에 들어가보면 ubuntu-18.04.4 리눅스 환경에 minikube를 미리 설치한 터미널로 테스트 할 수 있다. 

minikube 설치 참조 : https://minikube.sigs.k8s.io/docs/start/


[ minikube 명령어 ]

minikube version : minikube 버전확인

minikube start : 쿠버네티스 클러스터를 minikube를 통해 실행 


[ kubectl 명령어 ]

쿠버네티스 커맨드 라인도구인 kubectl을 사용하면 쿠버네스트 클러스터에 대한 명령(애플리케이션 배포, 리소스검사/관리, 로그 등)을 실행 할 수 있다. 이 또한 대화형 터미널에 이미 설치 되어있다.

kubectl 설치 참조 : https://kubernetes.io/ko/docs/tasks/tools/install-kubectl/


kubectl version : client와 server 2가지 버전이 나오는데, client버전은 사용하고 있는 kubectl버전을 가리키고, server버전은 master노드에 설치된 kubectl 버전을 가리킨다. master노드 개념은, 쿠버네티스는 마스터노드와 워커노드로 구분되는데 마스터 노드가 워커노드들을 컨트롤 한다 정도로 알자.


kubectl cluster-info : 클러스터 상세정보 

Kubernetes master is running at https://172.17.0.30:8443

KubeDNS is running at https://172.17.0.30:8443/api/v1/namespaces/kube-system/services/kube-dns:dns/proxy


kubectl get nodes : 애플리케이션을 사용할 수 있는 노드들의 정보

NAME       STATUS     ROLES    AGE   VERSION

minikube   NotReady   master   10s   v1.17.3




2. 앱배포하기


Deployment

클러스터를 실행하면, 그 위에 컨테이너화된 애플리케이션을 배포 할 수 있다. 이를 디플로이먼트를 통해 실행하며 이후 마스터가 개별 노드에 실행되도록 스케줄 한다. 

또한 디플로이먼트 컨트롤러가 애플리케이션 인스턴스들을 지속적으로 모니터링하여 장애시 다른 노드의 인스턴스로 교체한다.













[ kubectl 명령어 ]


kubectl create deployment 이름 --image=다운로드 이미지위치

디플로이먼트를 생성한다. 아래 명령어로 쿠버네티스 튜토리얼에서 제공하는 샘플 디플로이먼트를 생성한다.

kubectl create deployment kubernetes-bootcamp --image=gcr.io/google-samples/kubernetes-bootcamp:v1


kebectl get deployments : 디플로이먼트 리스트 확인

NAME                  READY   UP-TO-DATE   AVAILABLE   AGE

kubernetes-bootcamp   1/1     1            1           6s


kubectl proxy : 클러스터 개인의 네트워크로 전달하는 프록시를 만든다. 프록시는 control-c를 눌러 종료하며, 실행 중 출력이 표시된지 않는다.




3. 앱조사하기


파드








파드는 하나 이상의 애플리케이션의 그룹으로 쿠버네티스의 추상적인 개념이다. 2.앱배포하기에서 디플로이먼트를 통해 애플리케이션을 생성했다. 이때 애플리케이션 인스턴스에 파드는 자동생성된다. 

파트는 쿠버네티스 플랫폼 상에서 최소단위이며, 각 파드는 스케쥴 되어진 노드로 묶인다. 노드가 소멸되거나 삭제되기 전까지 그 노드에 유지된다.

같은 파드내 애플리케이션은 아래와 같은 리소스를 공유한다.

  • 같은 공유 스토리지 볼륨
  • 클러스터 IP와 네트워킹, 포트
  • 컨테이너 이미지, 각 컨테이너가 동작하는 방식에 대한 정보



노드













노드는 파드를 담고있으며, 같은 말로 파드는 언제나 노드 안에서 동작한다. 하나의 노드는 여러 개의 파드를 가질 수 있고, 이러한 노드는 마스터에 의해 관리된다. 쿠버네티스 마스터는 클러스터 내 노드를 통해서 파드에 대한 스켈쥴링을 자동처리한다.

마스터 -> 노드 -> 파드





https://kubernetes.io/ko/docs/tutorials/

2021년 2월 1일 월요일

[ Algorithm ] 같은 숫자는 싫어


문제 ]

배열 arr가 주어집니다. 배열 arr의 각 원소는 숫자 0부터 9까지로 이루어져 있습니다. 이때, 배열 arr에서 연속적으로 나타나는 숫자는 하나만 남기고 전부 제거하려고 합니다. 배열 arr에서 제거 되고 남은 수들을 return 하는 solution 함수를 완성해 주세요. 단, 제거된 후 남은 수들을 반환할 때는 배열 arr의 원소들의 순서를 유지해야 합니다.



제한사항

배열 arr의 크기 : 1,000,000 이하의 자연수

배열 arr의 원소의 크기 : 0보다 크거나 같고 9보다 작거나 같은 정수


입출력 예

arr                 answer

[1,1,3,3,0,1,1] [1,3,0,1]

[4,4,4,3,3]         [4,3]





풀이 ]

public class Solution {

    public int[] solution(int []arr) {

        ArrayList<Integer> tempList = new ArrayList<Integer>();

        int preNum = 10;

        for(int num : arr) {

            if(preNum != num)

                tempList.add(num);           

            preNum = num;

            

        }    


        int[] answer = new int[tempList.size()];

        for(int i=0; i<answer.length; i++) {

            answer[i] = tempList.get(i).intValue();

        }

        return answer;

    }

}