2021년 6월 14일 월요일

[ Spark ] 예제코드 SBT환경에서 실행


Linux SBT Tool를 통해 프로젝트 구조를 만들었다면 

참조 : https://www.blogger.com/blog/post/edit/preview/5343302747859156115/6404446971532325983

ProjectName/build.sbt를 수정하여 버전 및 Library를 추가한다.


- Spark관련 라이브러리 추가

libraryDependencies ++= Seq(
        "org.scala-lang.modules" %% "scala-parser-combinators" % "1.1.2",
        "org.apache.spark" % "spark-core_2.11" % "2.4.0",
        "org.apache.spark" % "spark-sql_2.11" % "2.4.0",
        "org.apache.spark" % "spark-hive_2.11" % "2.4.0"
)

참고 : https://www.scala-sbt.org/1.x/docs/Library-Dependencies.html


$ sudo vi src/main/scala/Main.scala

import org.apache.spark.sql.SparkSession
object Main extends App {
  val spark = SparkSession.builder()
      .appName("Spark Hive Example")
      .enableHiveSupport()
      .getOrCreate()

  spark.sql("show databases").show()
}



# 스파크 코드작성
sudo vi src/main/scala/Main.scala

# jar파일로 빌드
sbt package

# jar파일 spark실행
spark-submit --class [클래스명] --master [local/yarn/yarn-client] [jar파일경로] [인자]

Ex)
spark-submit --class "Curator" --master local --deploy-mode client /home/ec2-user/spark/member-influencer-statistics/target/scala-2.11/member-influencer-statistics_2.11-1.0.jar '20210618' '2021-06-18'












[ Airflow ] Centos7 설치


[ 개요 ]

airflow 모듈

  • airflow webserver: 웹UI를 통해 workflow를 컨트롤 하기 위함
  • airflow scheduler: DAG 파일을 통록된 workflow를 지정된 시간에 동작시키는 역할
  • airflow worker: scheduler에 의해 할당된 workflow를 실제로 동작시킴
  • airflow kerberos(옵션) : 만약 kerberos 인증된 데이터소스(ex- 하둡)에 접근할때 커버로스 인증티켓을 주기적으로 갱신하기 위함




[ 사전설치 ]

## 파이썬 3.6 설치 및 virtualenv 설치

$ sudo yum install -y python3 python3-devel

$ sudo pip3 intall virtualenv


##추가 필요 모듈 설치

$ sudo yum install -y gcc gcc-c++ cyrus-sasl-devel mysql-devel


## https://github.com/inishchith/autoenv

## virtualenv를 편하게 사용하기 위해 autoenv 설치

## virtualenv를 활성화 하려면 매번 해당 디렉토리에 들어가서 source ./bin/activate 를 실행해줘야 한다.

## autoenv는 디렉토리 이동시 .env 파일의 유무를 확인한후 .env를 실행한다.

## 따라서 .env 파일을 만들고 virtualenv activate를 써주면 매번 activate를 해줄필요 없이 자동으로 처리된다.

$ sudo pip3 install autoenv

$ echo "source `which activate.sh`" >> ~/.bash_profile

$ source ~/.bash_profile



[ Airflow 설치 ]

$ mkdir ${airflow 설치 디렉토리}


## airflow_home 환경변수 지정, 지정된 위치에 airflow가 설치되게 된다.

$ echo 'export AIRFLOW_HOME=${airflow 설치 디렉토리}' >> ~/.bash_profile

$ source ~/.bash_profile


$ cd ${airflow 설치 디렉토리}


## 가상 환경 설치

$ virtualenv -p python3 venv

$ echo 'source $AIRFLOW_HOME/venv/bin/activate' >> .env

## airflow_home 디렉토리로 다시 접근하면 autoenv에 의해 .env가 읽히고 윗줄의 source 설정이 읽힌다.

## 아래와 같이 나와야 autoenv 설정이 제대로 된것이다.

$ cd $AIRFLOW_HOME

autoenv:

autoenv: WARNING:

autoenv: This is the first time you are about to source /${AIRFLOW_HOME}/.env:

autoenv:

autoenv:     --- (begin contents) ---------------------------------------

autoenv:     source ./venv/bin/activate

autoenv:

autoenv:     --- (end contents) -----------------------------------------

autoenv:

autoenv: Are you sure you want to allow this? (y/N) y


$ pip3 install apache-airflow==1.10.5


## initdb를 하면 초기 설정파일이 airflow_home에 생성된다.

$ airflow initdb

## dag가 저장될 디렉토리 생성

$ mkdir dags

$ ls -ah

.env  airflow.cfg  airflow.db    dags  logs  unittests.cfg  venv 


[ Airflow DB ]

DB컨트롤 툴인 DBeaver에서 SQLite를 선택하고 

Path를 airflow.db로 잡는다.


연결완료화면

















참조 : 

https://airflow.apache.org/docs/apache-airflow/stable/howto/set-up-database.html

https://louisdev.tistory.com/3



2021년 5월 27일 목요일

[ Spark ] Phoenix 연결 에러 ( NoSuchColumnFamilyException )

 

[ 에러 ] 

org.apache.hadoop.hbase.regionserver.NoSuchColumnFamilyException: 

Column family table does not exist in region hbase:meta


[ 원인 ]

연결하려는 Hbase와 Spark의 Hbase jar 파일의 버전이 맞지 않아 생김


[ 해결 ]

Spark에 설치된 Hbase와 Hbase관련 Jar파일,

연결하려는 Hbase와 관련 Jar파일의 버전을 맞춘다.



2021년 5월 18일 화요일

[ Spark ] Mysql 연결에러 (java.lang.ClassNotFoundException)


[ 에러 ]

Spark로 Mysql 연결시

java.lang.ClassNotFoundException: com.mysql.jdbc.Driver

에러가 뜬다면 


1. spark-shell 

spark-shell --jars mysql-connector-java-5.1.46/mysql-connector-java-5.1.46.jar

: --jars옵션을 통해 스파크쉘을 실행한다


2. spark-submit

jars폴더 안에 mysql-connector파일을 넣어준다.

cp -r $HIVE_HOME/lib/mysql-connector-java-5.1.46-bin.jar $SPARK_HOME/jars/

* CDH환경일시 

cp ./mysql-connector-java-5.1.46-bin.jar /opt/cloudera/parcels/CDH-6.3.2-1.cdh6.3.2.p0.1605554/lib/spark/jars



2021년 5월 15일 토요일

[ Spark ] Linux SBT 환경셋팅



[ SBT 설치 ]

- Ubuntu

echo "deb https://dl.bintray.com/sbt/debian /" | sudo tee -a /etc/apt/sources.list.d/sbt.list

sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 2EE0EA64E40A89B84B2DF73499E82A75642AC823

sudo apt-get update

sudo apt-get install sbt


- CentOS

curl https://bintray.com/sbt/rpm/rpm | sudo tee /etc/yum.repos.d/bintray-sbt-rpm.repo

sudo yum install sbt


참조 : https://twitter.github.io/scala_school/ko/sbt.html



[ 스칼라 설치 ]

$ cd ~

$ wget http://downloads.lightbend.com/scala/2.11.8/scala-2.11.12.rpm

$ sudo yum install scala-2.11.12.rpm

$ scala -version


project 디렉토리를 생성

$ home/user/projects]$ sbt


sbt를 통해 프로젝트 생성

$ sbt new scala/hello-world.g8



[ 예제 실행 ]

$ cd project_name

$ sbt

sbt console > run

https://m.blog.naver.com/PostView.nhn?blogId=deepplin&logNo=221579037351&proxyReferer=https:%2F%2Fwww.google.com%2F




로컬에서와 클러스터모드에서 Spark SparkConf사용 :

https://stackoverflow.com/questions/42032169/error-initializing-sparkcontext-a-master-url-must-be-set-in-your-configuration





2021년 5월 14일 금요일

[ Kubernetes ] Ubuntu 18.04 도커설치


[ 설치 ]


$ sudo apt update

$ sudo apt install apt-transport-https ca-certificates curl software-properties-common

$ curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -

$ sudo add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu bionic stable"

$ apt-cache policy docker-ce

$ sudo apt install docker-ce


설치 확인

$ sudo systemctl status docker




[ 예제 실행 ]


$ mkdir cloudnatived

$ cd cloudnative 

$ git clone https://github.com/cloudnativedevops/demo.git

$ cd ..

$ sudo docker container run -p 9999:8888 --name hello cloudnatived/demo:hello


웹브라우저 http://ip:9999 로 접속



도커설치 참조 : 

https://blog.cosmosfarm.com/archives/248/%EC%9A%B0%EB%B6%84%ED%88%AC-18-04-%EB%8F%84%EC%BB%A4-docker-%EC%84%A4%EC%B9%98-%EB%B0%A9%EB%B2%95/


2021년 4월 23일 금요일

[ Scala ] 스칼라 프로젝트 Remote Git 환경설정

잘 설명되어있는 참조URL : 

 https://atoz-develop.tistory.com/entry/IntelliJ%EC%97%90%EC%84%9C-GitGitHub-%EC%82%AC%EC%9A%A9%ED%95%98%EA%B8%B0-%EA%B8%B0%EC%A1%B4-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-%EC%97%B0%EB%8F%99%ED%95%98%EA%B8%B0