2017년 2월 8일 수요일

[Englsih]Day10

fossil fuel : 화석연료
diurnal : 주행성인, 하루동안인
novice : 초보자

One of the main causes of global warming is CO2 or carbon dioxide.
지구 온난화의 주된 원인 중 하나는 이산화 탄소이다. or는 equal의 의미로 해석한다.

I'll have a think about it.Sorry, I don't think I've got the time.It's not my cup of tea. 그것은 내가 좋아하지 않어.
Great! Sign me up please. 등록시켜주세요.
Country          People
-an
Australia         Austrailan
Malaysia         Malaysian
-ese
Japan             Japanese
Vietnam          Vietnamese
-i
Bangladesh      Bangladeshi
Kuwait            Kuwaiti
others
France            French
New Zealand   New Zealander
Philippines      Filipino

2017년 2월 7일 화요일

[Hadoop] WordCount Mapper 구현

MapReduce 프로그램은 3부분으로 구성된다.
  1. Driver
  2. Mapper
  3. Reducer
첫번째로 Mapper를 살펴보자.


package hadoop_test;
import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class WordCountMapper extends
Mapper<LongWritable, Text, Text, IntWritable>{

private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

public void map(LongWritable key, Text value, Context context)
throws IOException, InterruptedException{
StringTokenizer itr = new StringTokenizer(value.toString());
while(itr.hasMoreTokens()){
word.set(itr.nextToken());
context.write(word, one);
}
}
}
알고리즘
1. 입력파라미터의 값인 문장을 공백 단위로 구분해 글자 수를 계산
2. 구분된 글자는 즉시 출력 파라미터에 추가. 글자 수를 1로 설정. ex) hi bob = 2


1]
public class WordCountMapper extends Mapper<LongWritable, Text,Text, IntWritable>

위 클래스는 Mapper 를 상속한다. 그대로 사용할 수 있지만 대부분 오버라이딩 한다.
Mapper.java는 Hadoop/src/mapred/org/apache/hadoop/mapreduce 에 정의되어 있다.

또한 제네릭 파라미터를 사용한다. 제네릭을 모른다?https://wikidocs.net/268
Mapper 코드는 입력 파일을 <Key, Value> 쌍으로 읽고 키 값 쌍을 내 보낸다.
순서대로 Mapper<입력 키 타입, 입력 값 타입, 출력 키 타입, 출력 값 타입>이다.
위 코를 해석하면 Mapper<Long, String, String Integer>이다.

어째서 LongWritable -> Long,  IntWritable-> Integer 이냐면, 맵리듀스는 네크워크 통신을 위한 최적화된 객체로 WritableComparable 인터페이스를 제공한다. 이를 통해 데이터 타입을 Wrapping을 하기 때문에 자료형의 클래스가 다르다. WritableComparable를 직접 구현하여 쓸 수 도 있다.



2] private final static IntWritable one = new IntWritable(1);
private Text word = new Text();

word는 키 , one은 값으로 사용한다. 예를 들어 "hi my hi "를 wordcount 하면 hi:2 my:1로 출력해야 한다. 글자 수는 1이여야 하므로 one을 final static으로 지정했다.  



3]  public void map(LongWritable key, Text value, Context context)

Mapper class스에도 정의되어 있는 method다. 각 인자는 <입력 키 타입, 입력 값 타입, Context 객체>이다. 이때 첫번째와 두번째 인자는 매퍼 클래스를 상속 받을 때와 동일한 타입이여야 한다. 즉 1]과 같이 데이터 타입을 Long, String으로 해야한다.

세번째 인자는 맵리듀스와 통신하면서 출력데이터, 모니터링에 필요한 상태값 등을 갱신하는 역할을 한다. Mapper.java 클래스에 Context클래스가 정의되어 있으며 생성자를 보면 InputFormat라는 추상클래스가 제공하는 RecordReader를 볼 수 있다. 이 때문에 입력 스플릿이 키와 값의 레코드로 맵 메서드의 파라미터로 전달 될 수 있는 것이다.


4]  StringTokenizer
StringTokenizer를 통해 공백 단위로 구분된 String값을 순회한다.
클래스에 대한 정보는 https://docs.oracle.com/javase/7/docs/api/




[Java]기본 Class들(Wrapper, BigInteger, BigDecimal)


1)Wrapper class 
기본 자료형의 인스터스화를 지원
-Boolean
-Character
-Byte
-Short
-Integer
-Long
-Float
-Double
모든 기본 자료형에 해당하는 Wrapper클래스가 정의되어 있다. 또한 String의 참조 값을 인자로 받는 생성자들이 있어서 Integer num = new Integer("1230"); 이 가능하다.

1-2)unboxing
또한 wrapper클래스의 인스턴스에 저장된 값은 변경이 불가능하다. 새로운 인스턴스의 생성 및 참조만이 가능할 뿐이다.
이를 위한 기능 인스턴스->기본자료형으로 바꾸는 작업을 unboxing이라 한다.
Ex)
Double d  = new Double(3.14);
d2 = new Double(d.doubleValue()+1.2); //인스턴스에 저장되 있는 값을 얻어 새로 참조.

그러나 현재는 auto boxing/unboxing 기능을 지원한다.
Double d  = new Double(3.14);
d2 = d+1.2;    //인스턴스 d를 unboxing하여 1.2와 더한 후, 다시 boxing 하여 d2에 저장.



2)와 3)둘다 java.math패키지를 import해야 한다.

2)BigInteger class
Long형보다 더 큰 수를 표현할 때 사용.
BigInteger b = new BigInteger("111111111111111111111111111");
BigInteger b2 = b.add("12312222222222222");
//문자형으로 받는다. long형보다 큰 수를 변수에 못 담으니 생성자도 존재할 수 없다.

3)BigDecimal class
오차없는 실수 표현을 위한 클래스
BigDecimal c = new BigDecimal("1.66");
c= c.add(new BigDecimal("0.33"));





[English]Day9


factory waste : 공장폐기물
dump waste : 쓰레기를 버리다
build up : 창조하다 높이다.
take place : 일어나다, 개최하다

Driving cars causes air pollution
Driving leads to air pollution
Driving cars  results in air pollution
->
Air pollution is caused by driving car
Air pollution is the result of driving car
Air pollution is due to driving car


You can't manage global warming at the scale of the individual.
너(너희)는 개인의 규모로 지구 온난화를 관리할 수 없다.

Managing the atmosphere has to take place at a global level.
대기의 관리는 전 세계적인 수준에서 이루어져야 한다.

[Python] for문 in Dictionary

>>> interest_stocks = {"Naver":10, "Samsung":5, "SK Hynix":30}
interest_stocks라는 딕셔너리에 있는 키-값 쌍에 대해 매수 동작을 반복적으로 수행하려면 for 문을 사용하면 됩니다. 다만 딕셔너리의 한 원소에는 키와 값이 있기 때문에 for 문 다음에 있는 변수가 한 개가 아니라 두 개를 적어야 합니다. 그리고 딕셔너리 이름을 적은 다음 .items( )를 붙여야 합니다.
>>> for company, stock_num in interest_stocks.items():
        print("%s: Buy %s" % (company, stock_num))

SK Hynix: Buy 30
Naver: Buy 10
Samsung: Buy 5
>>>

2017년 2월 2일 목요일

[English]Day8


Vocabulary

nappingsleeping for a short period of time
(to) nod off : 꾸벅꾸벅 졸다to fall asleep
sleeping on the job 
sleeping when you should be working
insomniac : 불면증
a person who has difficulty falling sleep
40 winks : 잠깐 눈을 붙이다
(informal) nap for a short period of time
power-napa
short sleep that gives you energy
naptivist 
a made-up name for someone who actively campaigns for napping at work
attitude 
opinion or feeling about something
counter-cultural : 반문화, 반체제
opposite to what most people think or do
work ethic : 직업 윤리
belief about how we should work
wellbeing 
feeling of being happy and health
wide awake : 완전히 깨어 있는
quick sleep : 숙면
embrace : 포용하다
disrupt : 방해하다
prevail : 만연하다
snooze : 선잠을 자다
fad : 유행
harassment : 괴롭힘, 애먹음

2017년 2월 1일 수요일

[Python]List, tuple, dictionary 다루기


[리스트]
[리스트 생성]
서로 다른 자료형을 동시에 넣을 수도 있습니다. 네이버 주식을 5,000주 가지고 있어서 이를 리스트로 표현한다면 다음과 같이 작성할 수 있습니다.
>>> mystock = ['Naver', 5000]>>> len(mystock)>>>2
파이썬의 리스트를 만들 때 항상 데이터가 있어야 하는 것은 아닙니다. 다음과 같이 리스트를 만들 때 '['와 ']' 기호 사이에 데이터를 넣지 않으면 아무것도 들어 있지 않은 빈(empty) 리스트가 만들어집니다.
>>> mystock = []
[리스트 슬라이싱]
>> kospi_top10 = ['삼성전자', 'SK하이닉스', '현대차', '한국전력', '아모레퍼시픽', '제일모직', '삼성전자우', '삼성생명', 'NAVER', '현대모비스']
앞에서 배운 파이썬 인덱싱을 사용해 코스피 기준 시가총액 5위를 출력하는 프로그램을 작성하면 다음과 같습니다. 여기서 한 가지 주의할 점은 파이썬의 인덱스는 0부터 시작하기 때문에 kospi_top10[4]가 리스트 내에서 5번째에 위치하는 데이터라는 것입니다.
>>> print("시가총액 5위: ", kospi_top10[4])
시가총액 5위:  아모레퍼시픽              
현재 kospi_top10이라는 리스트에는 10개의 종목이 있는데, 만약 코스피 상위 5종목만으로 구성된 새로운 리스트를 만들고 싶다면 어떻게 할까요? 다음과 같이 리스트의 슬라이싱을 사용하면 새로운 리스트를 손쉽게 만들 수 있습니다.
>>> kospi_top5 = kospi_top10[0:5]
>>> kospi_top5['삼성전자', 'SK하이닉스', '현대차', '한국전력', '아모레퍼시픽']              
[리스트 삽입]
>>> kospi_top10.append('SK텔레콤') //뒤에서부터 자동 삽입>>> kospi_top10.insert(3, 'SK 텔레콤') //삽일될 위치를 정해 줄 수 있다.
[리스트 삭제]
>>> kospi_top10[-1]
'현대모비스'
>>> del kospi_top10[-1]

[딕셔너리]
파이썬의 딕셔너리도 영어사전과 유사하게 키(key)와 값(value)이라는 쌍으로 데이터를 구성해서 저장함으로써 더 쉽게 저장된 값을 찾을 수 있는 구조입니다.
딕셔너리는 '{'와 '}' 기호를 사용합니다. 리스트와 튜플을 복습해보면 리스트는 '['와 ']' 기호를 사용했고, 튜플은 '('와 ')' 기호를 사용했습니다. 다음과 같이 아무것도 들어 있지 않는 빈 딕셔너리를 하나 만들어 봅시다.
>>> cur_price = {}
위 코드를 실행하면 메모리의 어딘가에 딕셔너리가 하나 만들어지고, 이를 cur_price라는 이름의 변수가 바인딩합니다. 정말로 딕셔너리가 잘 만들어졌는지 type 내장 함수를 이용해 확인해 봅시다. type 함수의 반환값을 보면 'dict'라는 문자열이 있는데, 이것은 dictionary의 줄임말입니다.
>>> type(cur_price)
<class 'dict'>

원소가 들어 있지 않은 딕셔너리가 잘 만들어졌으니 딕셔너리에 키-값 쌍을 하나 추가해보겠습니다.
>>> cur_price['daeshin'] = 30000
사전에 키와 값 쌍을 하나 추가했으니 해당 데이터가 잘 추가됐는지 딕셔너리를 확인해 봅시다.
>>> cur_price
{'daeshin': 30000}
>>> len(cur_price)
1
파이썬의 딕셔너리는 리스트와 튜플과 달리 인덱싱을 지원하지 않습니다. 딕셔너리는 리스트와 튜플과 달리 데이터를 순서대로 저장하는 것이 아니라 키와 값의 쌍이 서로 연결되도록만 저장하기 때문입니다. 따라서 다음과 같이 딕셔너리에 정숫값을 이용해 인덱싱하면 오류가 발생합니다.
>>> cur_price[0]
Traceback (most recent call last):
  File "<pyshell#18>", line 1, in <module>
    cur_price[0]
KeyError: 0
>>> cur_price[1]
Traceback (most recent call last):
  File "<pyshell#19>", line 1, in <module>
    cur_price[1]
KeyError: 1
딕셔너리는 리스트나 튜플과 달리 원소를 추가한 순서대로 데이터가 저장돼 있지 않기 때문에 딕셔너리에 추가한 데이터를 얻으려면 키 값을 사용해야 합니다. 
>>> cur_price['daeshin']
30000

[딕셔너리 삽입]
딕셔너리에 데이터를 삽입하는 방법을 정리해보면 딕셔너리는 리스트의 append나 insert 같은 메서드를 지원하지 않으며, 명시적으로 키-값 쌍을 넣어야 했습니다.
>>> cur_price['naver'] = 800000
>>> cur_price = {'Daum KAKAO': 80000, 'naver':800000, 'daeshin':30000}
>>> cur_price
{'naver': 800000, 'Daum KAKAO': 80000, 'daeshin': 30000}
>>>

[딕셔너리 삭제]
딕셔너리에 저장된 데이터를 삭제하려면 리스트와 마찬가지로 del을 사용하면 됩니다. 참고로 튜플은 리스트와 딕셔너리와 달리 데이터를 삭제할 수 없었습니다. 
>>> del cur_price['daeshin']
>>> cur_price
{'naver': 800000, 'Daum KAKAO': 80000}
>>> 

[key 값만, value값만 구하기]

키 값만 구하고 싶을 때 "딕셔너리이름.keys()"라고 호출하면 됩니다.
>>> cur_price = {'Daum KAKAO': 80000, 'naver':800000, 'daeshin':30000}
>>> cur_price.keys()
dict_keys(['naver', 'Daum KAKAO', 'daeshin'])
keys() 메서드의 반환값을 보면 'Daum KAKAO'와 'naver'가 파이썬의 리스트로 표현된 것 같기도 한데 그 앞에 'dict_keys'라는 것이 있습니다. 사실 keys() 메서드의 반환값은 리스트는 아니며, 리스트로 만들려면 list라는 키워드를 이용해 타입을 변환해줘야 합니다.
>>> stock_list = list(cur_price.keys())
>>> stock_list
['naver', 'Daum KAKAO', 'daeshin']
딕셔너리에서 키 목록을 구하는 것과 비슷하게 값 목록을 구하려면 values()라는 메서드를 사용하면 됩니다. cur_price 딕셔너리에서 값 목록을 리스트로 만들어 바인딩해 봅시다.
>>> price_list = list(cur_price.values())
>>> price_list
[800000, 80000, 30000]
'Samsung'이라는 종목의 현재가를 cur_price라는 딕셔너리로부터 구해야 한다고 해봅시다.
>>> 'Samsung' in cur_price.keys()
False
위 코드에 대해 한글로 해석해보면 'Samsung'이 keys() 안에 있는가? 정도가 됩니다. 그렇다면 'naver'는 어떨까요? 'naver'라는 종목명은 cur_price의 키 중 하나임을 알 수 있습니다.
>>> 'naver' in cur_price.keys()
True
'naver'는 cur_price 딕셔너리의 키 중 하나이기 때문에 키를 통해 현재가 데이터를 구할 수 있습니다. 그러나 'Samsung'은 키에 포함돼 있지 않기 때문에 'Samsung'이라는 키를 사용하면 오류가 발생합니다.
>>> cur_price['naver']
800000
>>> cur_price['Samsung']
Traceback (most recent call last):
  File "<pyshell#40>", line 1, in <module>
    cur_price['Samsung']
KeyError: 'Samsung'
>>>
출처: https://wikidocs.net/2858