본문 바로가기

[2016 - 2019] 학부 정리/3학년

[3학년-활동] (skt아카데미) 빅데이터의 시초2

>Hadoop(하둡)

 · GFS와 MapReduce 논문을 보고 Doug Cutting과 Mike Casfarella가 이를 오픈 소스로 구현

 · Hadoop : 아들의 노란 코끼리 장난감의 이름을 따서 지음

 · GFS, MapReduce와 유사한 구조

 · GFS -> HDF, MapReduce -> MapReduce

 · name node가 데이터의 위치를 알려주는 역할, data node에서 실제 데이터를 조회하게 됨

 · Hive, Pig, Impala, Tez등이 나오면서 계속 발전함

 · 최근에는 Spark가 대세, MapReduce는 점점 사용 안함

 

 

>> 아파치 Hive

   · SQL로 분석 쿼리를 실행하면, 이를 MapReduce코드로 병환하여주는 도구

   · MapReduce 코드는 작성하기 아주 불편하므로 큰 인기를 끔

   · 현재까지도 많이 사용됨

 

 >> 아파치 Pig

   · Pig Latin 이라는 하이레벨 언어로 MapReduce를 실향할 수 있는 도구

   · Netflix 등에서 사용하면서 주목을 받았고, 현재는 거의 사용되지 않음

 

 >> Tez

   · MapReduce의 성능적, 표현적 한계를 극복하고자 하는 실행 엔진

   · Spark의 급부상으로 거의 주목을 받지 못함

 

 >> Impala

   · MapReduce 기반의 Hive의 느린 응답성을 개선한 도구

   · Spark의 급 부상으로 (Spak SQL)초기에 약간 주목을 받다가 현재는 거의 사용되지 않음 

  

 

 

[출처 : SK토크ON세미나 8차 강의자료]