2022년 1월 27일 목요일

[ AWS ] Lambda함수에서 Athena Table Repartition

 

[ 1. Athena Table Create ] 

테이블 생성 후

-- 설정된 파티션 보기

show partitions test_db.table_name;


-- 해당 파티션의 S3 location 보기

describe formatted test_db.table_name partition (partition_column='123123');



[ 2. Lambda 함수 작성 ]

람다 아테나 쿼리 실행 참조 : 

https://medium.com/dataseries/automating-athena-queries-from-s3-with-python-and-save-it-as-csv-8917258b1045

S3 트리거를 이용하여 Lambda 함수 호출 :

https://docs.aws.amazon.com/ko_kr/lambda/latest/dg/with-s3-example.html



[ 3. Lambda Role 설정 ]

람다함수 -> 구성 -> 권한 -> 실행역활의 Role 정책 추가

AmazonS3FullAccess

AmazonAthenaFullAccess

CloudWatchLambdaInsightsExecutionRolePolicy



[ 4. 실행 테스트 ]

로그는 CloudWatch, Athena log(S3에 저장하도록 설정) 에서 확인


Insufficient Lake Formation permission 에러가 나온다면

LakeFormation -> permissions -> data lake permissions에서 

쿼리적용할 테이블에 대한 iam user 권한 설정


2022년 1월 11일 화요일

[ Grafana ] metadata DB 변경 ( mysql )

meta data storage는 default sqlite이다.

아래는 mysql로 setting하는 작업이다.


1. Mysql set up

  • mysql 설치
  • mysql에 grafana user와 privileges 설정
  • grafana session table 생성

2. grafana.ini 파일에서 mysql enable설정

3. grafana start


mysql

mysql> CREATE DATABASE grafana;

mysql> GRANT ALL ON `grafana`.* to 'grafana'@'%' identified by 'datatech';

mysql> flush privileges;

mysql> SELECT user, host FROM user;

mysql> CREATE TABLE `session` (`key` char(16) not null, `data` blob, `expiry` int(11) unsigned not null, primary key (`key`) ) ENGINE=MyISAM default charset=utf8;


sudo vi $GRAFANA_HOME/conf/grafana.ini

[database]

# Either "mysql", "postgres" or "sqlite3", it's your choice

;type = sqlite3

;host = 127.0.0.1:3306

;name = grafana

;user = root

;password =

type = mysql

host = mysqlserver.example.com:3306

name = grafana

user = grafana

password = grafanamysqluserpasswd

# For "postgres" only, either "disable", "require" or "verify-full"

;ssl_mode = disable

# For "sqlite3" only, path relative to data_path setting

;path = grafana.db



2022년 1월 10일 월요일

[ Grafana ] Alert


  • Alert rules
  • Contact points
  • Notification policies
  • Sliences
  • Alert groups


[ Alert rules ]

조건에 따른 알림 생성



알림을 저장할 Folder가 최소 1개 필요하다

'Run queries'버튼 클릭시 미리 임계값을 적용한 그래프보기 가능



[ Contact points ]

message보낼 template와

알림을 보낼 SNS정보( Contact points ) 등록가능 


[ Sliences ]

알림 설정을 잠시 동안 Off하는 기능


참조 : 

https://velog.io/@hansung/Grafana-8.0-%EA%B0%9C%EC%84%A0%EB%90%9C-%EC%95%8C%EB%A6%BC-%EA%B8%B0%EB%8A%A5


2022년 1월 9일 일요일

[ Prometheus ] PromQL 예제 (Prometheus Query Language)


[ Data Types ]

  • String - 문자열 변수
  • Scalar - 숫자 변수
  • Instant vector - a set of time series containing a single sample for each time series, all sharing the same timestamp
  • Range vector - a set of time series containing a range of data points over time for each time series


[ String ]

Example:

"this is a string"
'these are unescaped: \n \\ \t'
`these are not unescaped: \n ' " \t`



[ Scalar ]

Examples:

23
-2.43
3.4e-9
0x8f
-Inf
NaN



[ Instant vector selectors ]

{}를 사용하여 filtering 

prometheus_http_requests_total{job="prometheus",code="302"}
prometheus_http_requests_total{code=~"200|302|404",method!="GET"}

적어도 하나의 레이블과 매치시켜야 한다.

prometheus_http_requests_total{code=~".*"} # Bad
prometheus_http_requests_total{code=~".*",job="prometheus"} # Good!



[ Range Vector Selectors ]

[]를 범위를 선택한다. 그래프는 그릴 수 없다.

prometheus_http_requests_total{job="prometheus"}[3m]

Offset modifier를 이용하여 집계함수 사용

prometheus_http_requests_total offset 5m
sum(prometheus_http_requests_total{code="200"} offset 10m)
rate(prometheus_http_requests_total[10m] offset -1w)



[ SubQuery Example ]

min_over_time( rate(prometheus_http_requests_total[5m])[30m:1m] )
max_over_time( deriv( rate(distance_covered_meters_total[1m])[5m:1m] )[10m:] )



[ Operators ]

집계연산자

  • sum (calculate sum over dimensions)
  • min (select minimum over dimensions)
  • max (select maximum over dimensions)
  • avg (calculate the average over dimensions)
  • group (all values in the resulting vector are 1)
  • stddev (calculate population standard deviation over dimensions)
  • stdvar (calculate population standard variance over dimensions)
  • count (count number of elements in the vector)
  • count_values (count number of elements with the same value)
  • bottomk (smallest k elements by sample value)
  • topk (largest k elements by sample value)
  • quantile (calculate φ-quantile (0 ≤ φ ≤ 1) over dimensions)

Example

sum without (code) (prometheus_http_requests_total) # code를 빼고 집계
sum by (instance, code) (prometheus_http_requests_total) # group by sum(instance), sum(code)
topk(5, prometheus_http_requests_total) # 가장 큰 요청 수



[ Function ]

# 지정된 함수 사용
round(rate(prometheus_http_requests_total[10m]),0.0001)
# 사용자 함수 정의
sum by (job) (
  rate(http_requests_total[5m])
)

정의된 함수 참조 : https://prometheus.io/docs/prometheus/latest/querying/functions/



2022년 1월 7일 금요일

[ Python ] ModuleNotFoundError: No module named

pip install로 해당 package를 다운 받았지만 

ModuleNotFoundError 에러가 나올 때


설치한 패키지의 directory가 python실행시 포함되는지 확인

$ cat test.py
import sys
print(sys.path)

$ python test.py
['', '/usr/lib/python3.6', '/usr/lib/python3.6/plat-x86_64-linux-gnu', ...'/usr/lib/python3.6/dist-packages']


python shell에서도 확인

$ python
>>> import sys
>>> print(sys.path)
>>> ['', '/usr/lib/python3.6', '/usr/lib/python3.6/plat-x86_64-linux-gnu...


두 값을 비교하여 설치한 모듈의 directory가

포함되지 않는다면 실행할 py파일에 해당 코드 추가

sys.path.append("path")


[ Ansible ] Roles을 이용한 Playbook


[ roles init ]

roles directory 생성

$ mkdir roles
$ cd rolse

$ ansible-galaxy init common
$ tree common ├── README.md ├── defaults │   └── main.yml ├── files ├── handlers │   └── main.yml ├── meta │   └── main.yml ├── tasks │   └── main.yml ├── templates ├── tests │   ├── inventory │   └── test.yml └── vars     └── main.yml



[ roles/common/vars/main.yml ]

미리 변수를 정의하여 tasks에서 사용

name: my-host



[ roles/common/templates/host.my-host.j2 ]

tasks에서 사용할 template정의

127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.1.10 main_server
192.168.1.11 storage_server



[ roles/common/tasks/main.yml ]

실제 동작하는 tasks 작성

- name: Install packages
  yum:
    name:
      - wget
      - unzip
  become: true

- name: modify hosts
  template:
    src: ../templates/hosts.{{name}}.j2
    dest: /etc/hosts
    owner: root
    group: root

 


[ common.yml ]

최초 실행 playbook 

- hosts: '{{ target }}'
  roles:
    - common


[ playbook 실행 ]

$ ansible-playbook common.yml --extra-vars "target=my-host" --user=my









[ Prometheus ] Jmx exporter Hadoop설정

[ prerequisite ]

  • hadoop설치 
  • hadoop_env.sh에 jmx port 설정
jmx설정 예시

export HADOOP_DATANODE_OPTS="-Dcom.sun.management.jmxremote 
-Dcom.sun.management.jmxremote.ssl=false 
-Dcom.sun.management.jmxremote.authenticate=false 
-Dcom.sun.management.jmxremote.port=19004 
$HADOOP_DATANODE_OPTS"


jmx데이터를 바로 prometheus가 읽을 수 없으니 

jmx_exporter를 통해 jmx->metric으로 변환시켜야 한다.


[ jmx_export설치 ]

wget https://repo1.maven.org/maven2/io/prometheus/jmx/jmx_prometheus_javaagent/0.16.1/jmx_prometheus_javaagent-0.16.1.jar

참조 : https://github.com/prometheus/jmx_exporter



[ hadoop-env.sh ]

각 옵션마다 jar파일을 실행하게 설정 값을 변경

예시 : -javaagent:<jmx exporter jar file path>=<port>:<configure file path>

# Name node jmx export 설정
export HDFS_NAMENODE_OPTS="
...
-javaagent:/path/jmx_prometheus_javaagent-0.16.1.jar=5566:/path/config.yml
$HDFS_NAMENODE_OPTS"

# Data node jmx export 설정
export HDFS_DATANODE_OPTS="
...
-javaagent:/path/jmx_prometheus_javaagent-0.16.1.jar=5577:/path/config.yml
$HDFS_DATANODE_OPTS"


configure file 참조: https://github.com/prometheus/jmx_exporter

---
startDelaySeconds: 0
hostPort: 127.0.0.1:1234
username: 
password: 
jmxUrl: service:jmx:rmi:///jndi/rmi://127.0.0.1:1234/jmxrmi
ssl: false
lowercaseOutputName: false
lowercaseOutputLabelNames: false
whitelistObjectNames: ["org.apache.cassandra.metrics:*"]
blacklistObjectNames: ["org.apache.cassandra.metrics:type=ColumnFamily,*"]
rules:
  - pattern: 'org.apache.cassandra.metrics<type=(\w+), name=(\w+)><>Value: (\d+)'
    name: cassandra_$1_$2
    value: $3
    valueFactor: 0.001
    labels: {}
    help: "Cassandra metric $1 $2"
    cache: false
    type: GAUGE
    attrNameSnakeCase: false



[ web에서 확인 ]

http://YourHostIp:5566



[ prometheus.yml ]

jmx exporter데이터를 http로 받을 수 있으니 prometheus가 가져올 수 있게 설정

scrape_configs:
  - job_name: "namenode"
    static_configs:
      - targets: ["namenode-ip:5566"]

  - job_name: "datanode"
    static_configs:
      - targets: ["datanode-ip:5577"]


[ prometheus web에서 확인 ]

프로메테우스 재시작 후 -> http:prometheus_host:9090 -> target메뉴 에서 

수집데이터 확인



참조 :

https://www.fatalerrors.org/a/hdfs-yarn-on-promethues-grafana-monitoring-promethues-data-source-configuration.html

https://programming.vip/docs/how-to-use-jmx_-exporter-prometheus-grafana-monitor-hadoop-cluster.html