2021년 1월 15일 금요일

[ Algorithm ] 3진법 뒤집기


문제 ]

자연수 n이 매개변수로 주어진다. n을 3진법 상에서 앞뒤로 뒤집은 후, 이를 다시 10진법으로 표현한다. 

n (10진법)n (3진법)앞뒤 반전(3진법)10진법으로 표현
45120000217

따라서 7을 return해야 한다.



제출 ]

class Solution {

    public int solution(int n) {

        StringBuffer sb = new StringBuffer();

        StringBuilder stringBuilder = new StringBuilder();

        

        // 10진법을 3진법

        while( n != 0) {

            sb.append(n % 3);

            n = n / 3;

        }

        

        // 3진법을 10진법으로

        int answer = Integer.parseInt(sb.toString(), 3);

        return answer;

    }

}




풀이 ]


1. 10진법을 3진법으로 변환

2. 3진법 뒤집기

3. 뒤집은 값을 10진법으로 다시표현


[ 1. 10진법을 3진법으로 변환하는 방법 ]

N = 45라고 하면


45 / 3 = 15  ,  45 % 3 = 0 

15 / 3 = 5  , 15 % 3 = 0

5 / 3 = 1 , 5 % 3 = 2

1 / 3 = 0 , 1 % 3 = 1  


십진법 45는 3진법으로 1200이 된다.

즉 N / 3 = 0 이 될때까지 나머지를 구하도록 while문으로 구현한다.



[ 2. 3진법 뒤집기 ]

StringBuffer 클래스는 사용하여 자동적으로 값이 뒤집어지게 한다.

해당 클레스와 관련된 내용을 적자면,


String과 StringBuffer or StringBuilder의 차이 

String은 불변의 속성때문에 새로운 값을 할당할 때마다 새로운 주소를 할당한다. 그에 따른 메모리와 많은 임시가비지가 생성되므로 수정이 많은 작업이면 StringBuffer or StringBuilder와 같은 클래스들을 쓰는게 좋다. 

StringBuffer or StringBuilder는 주소 값을 변경하지 않고 새로운 값을 추가한다. 이 둘의 차이점은 동기화 지원유무이다. 

  • StringBuilder는 여러 쓰레드가 동시에 접근이 가능하능 
  • StringBuffer는 멀티쓰레드 환경에서 데이터변경을 허용하지 않아 비동기 작업에 적합
  • 단일 쓰레드는 StringBuilder보다 StringBuffer가 더 뛰어남


[ StringBuffer와 StringBuilder 테스트 ]

class Solution {
    public int solution(int n) {
        StringBuffer stringBuffer = new StringBuffer();
        StringBuilder stringBuilder = new StringBuilder();

        new Thread(() -> {
            for(int i=0; i<100000; i++) {
                stringBuffer.append(i);
                stringBuilder.append(i);
            }
        }).start();

        new Thread(() -> {
            for(int i=0; i<100000; i++) {
                stringBuffer.append(i);
                stringBuilder.append(i);
            }
        }).start();

        new Thread(() -> {
            try {
                Thread.sleep(5000);

                System.out.println("StringBuffer.length: "+ stringBuffer.length());
                System.out.println("StringBuilder.length: "+ stringBuilder.length());
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        }).start();

    }
}


출력 StringBuffer.length: 977780
StringBuilder.length: 959296


결과 값을 보면, 쓰레드 동기화여부에 따라 데이터크기에 차이가 난다는 것을 볼 수 있다. 



[ 3. 뒤집은 값을 10진법으로 다시표현 ]

Integer객체의 parseInt 함수는 

parseInt(String s, int radix) - return int

두번째 인자를 통해 N진법 String을 10진번 Int형으로 값을 반환 받는다.



2021년 1월 13일 수요일

Hive [9] - Sqoop으로 Hive Table Input시, 구분자 설정

 

Sqoop으로 RDB 데이터를 입력받을 시 Column의 Text데이터가 "안녕하세요, 저는 어쩌고, ..." 와 같은 ','가 포함되었다면 구분자를 변경해야 한다. ( Default ',' )

아래 설정은 \t (탭)으로 구분자를 설정하며 Oozie XML -> Sqoop -> Hive Table에 넣는 과정을 담는다.


[ Oozie XML ]

아래 설정을 추가 한다.

<arg>--fields-terminated-by</arg>

<arg>"\t"</arg>



[ Hive Table Create ]

생성시 Delimited fields를 정의한다. ( 또는 업데이트 )

CREATE TABLE temp.table_temp

(

    id BIGINT,

    name VARCHAR(30),

    pay DECIMAL(10,2)

    tag VARCHAR(200)

)

ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE;



Hive Table 결과 조회







2021년 1월 11일 월요일

[ SQL ] - 조회된 결과값 파티션으로 순번 매기기 ( ROW_NUMBER() )


ID | NAME 스키마의 테이블을

- SELECT * FROM db.test;

|   ID | NAME |
|------|------|
| 1525 |    a |
| 1528 |    b |
| 1525 |    w |
| 1526 |    b |
| 1526 |    v |
| 1528 |    c | 
| 1525 |    b |


Order by 된 결과에 순번을 매기는 방법은 ROW_NUMBER() 함수를 이용한다. 


- SELECT *, ROW_NUMBER()OVER(PARTITION BY id ORDER BY name ) AS nums

|   ID | NAME | RN |
|------|------|----|
| 1525 |    a |  1 |
| 1525 |    b |  2 |
| 1525 |    w |  3 |
| 1526 |    b |  1 |
| 1526 |    v |  2 |
| 1528 |    b |  1 |
| 1528 |    c |  2 |



2021년 1월 8일 금요일

Hive [8] - Encoding 과 Decoding

 

예제 20528978에 대하여 인코딩 디코딩.


[ 인코딩 ]

select base64(encode('20528978', 'UTF-8'))

결과 값 : MjA1Mjg5Nzg=


[ 디코딩 ]

select decode(unbase64('MjA1Mjg5Nzg='), 'UTF-8')

결과 값 : 20528978


[ 다양한 형식 ]

select decode(unbase64('MjA1Mjg5Nzg='), 'ISO-8859-1');

select decode(unbase64('MjA1Mjg5Nzg='), 'UTF-16LE');



변환해주는 웹사이트 

https://www.base64encode.org/

2021년 1월 3일 일요일

[ AWS ] Elasticache 원격접속


[ EC2에서 접속 ]


1. 접속할 EC2보안그룹 추가

사용자지정TCP / 포트범위: 6379 / 소스: 보안그룹ID 


- 설치

$ yum install gcc make gcc-c++

# $ wget http://download.redis.io/redis-stable.tar.gz

$ wget http://download.redis.io/releases/redis-5.0.8.tar.gz 

$ tar xvzf redis-stable.tar.gz

$ cd redis-stable

$ make distclean      

$ make


- 접속

$ src/redis-cli -c -h redis-endpoint.example.cluster.apne1.cache.amazonaws.com -p 6379


- 테스트

redis]set a "hellow"

redis]get a 


- 접속하지 않고 명령어 실행 ( 키삭제 )

./redis-cli -c -h 123.12.26.166 -p 6379 -a redistest KEYS "myobj/*" | xargs ./redis-cli -c -h 123.12.26.166 -p 6379 -a redistest  DEL




[ Direct 접속 ]


EC2를 거치지 않고 전용회선을 접속하고자 하는 곳에 열어주어 Direct로 접속할 수 있다.

추가금액과 시간이 소모된다.


1. AWS에 Direct전용회선 사용신청

2. 사용신청 확인메일을 amazon에게 받음

3. 사용신청확인메일을 amazon에게 응답( Location of Data Center / Network provider or vendor 정보)

4. LOA-CFA(확인코드)을 DX로케이션(전용회선설치회사)에 전달하여 회선설치요청

5. DX로케이션으로부터 회선설치 완료통지



참고 :

https://www.slideshare.net/awskorea/aws-direct-connect-58456263

https://docs.aws.amazon.com/ko_kr/directconnect/latest/UserGuide/create-connection.html


Apache Nifi - Kafka to HDFS

 

Kafka에서 데이터를 받아 HDFS에 json, csv형태로 입력받는다.

저장 후 Hive, Spark 등으로 데이터를 처리할 수 있으며 실시간 데이터 인풋을 Nifi를 통해 

확인할 수 있는 장점이 있다.



1. [ ConsumeKafka ] 

컨슈머로 연결하여 브로커에서 보내는 메세지를 소비


Properties : 

Kafka Brokers : 172.31.11.11:9092, 172.31.22.22:9092, 172.31.33.33:9092

Topic Name(s) : your-topic-name

Group ID : your-kafka-group-id




2. [ UpdateAttribute ]

들어오는 카프카데이터에 createdAt를 추가하기 위한 프로퍼티

filename은 HDFS저장시 파일명을 시간으로 지정하기 위함


Property : 

createdAt : ${now():format("yyyy-MM-dd:HH:mm:ss")}

filename : st_${now():format("yyyyMMddHHmmssSS")}_${random():mod(99):plus(1000)}




3. [ ReplaceText ]

2.에서 지정한 createdAt값을 Json으로 입력받는 Kafka데이터 맨뒤에 추가한다.


Property :

Search Value : (?s:(^.*)}$)

Replacement Value : $1,"createdAt":"${createdAt}"}

Replacement Strategy : Regex Replace




4. [ PutHDFS ]

해당되는 파일의 Path를 입력한다.


Property :

Hadoop Configuration Resources : /etc/hadoop/conf.cloudera.hdfs/core-site.xml,

/etc/hadoop/conf.cloudera.hdfs/hdfs-site.xml

Directory : /user/nifi/yourpath





PutEmail을 추가하여 Nifi에러시 Email을 받게 설정할 수도 있다.



Apache Kafka - Simple테스트 Python Code

 

[ Ubuntu ]

* 사전설치 Python3


sudo apt-get upgrade


# Pip설치

sudo apt-get install python3-pip


#Kafka Lib 설치

sudo pip3 install kafka-python




[ 테스트 코드 ]

from kafka import KafkaProducer

import time


producer = KafkaProducer(bootstrap_servers=[ '172.31.11.11:9092', '172.31.22.222:9092', '172.31.33.33:9092' ])


for i in range(1,50):

    producer.send( 'Topic-Name', str.encode('kafka:-%d' % i) )

    time.sleep(0.5)