본문 바로가기

[2016 - 2019] 학부 정리/3학년

[3학년-활동] (skt아카데미) 빅데이터란? HDFS란?

2017년 7월 20일 1시부터 7시까지 t아카데미 토크ON세미나 (8차)"빅데이터(BigData)플랫폼의 이해"세미나 참여했고 세미나에서 들은 내용과 제가 세미나에 가기전 따로 책으로 공부한 내용들을 합쳐서 정리해봤습니다.

생각보다 세미나에서 나간 내용들이 많이 어려웠기때문에 모든 내용은 정리하지 못했고 제가 조금 공부한 부분까지만 정리했습니다.

 

1. 빅데이터란?

 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다.

 각종 빅 데이터는 SNS나 이메일 서비스, youtube등 개인들이 각각의 서비스에 저장하는 데이터들을 말하며 모든 데이터가 빅 데이터는 아니다. 빅 데이터 시대 이전 우리가 쓰는 데이터베이스는 회원정보, 고객정보, 계좌정보 등 정확하고 유일하며 보안이 소중한 소량의 데이터들이 있는데 이것은 빅 데이터가 아닌 데이터라 한다. SNS의 로그들 보안이 많이 중요하지 않은 분석을 위한 데이터들을 빅 데이터라고 한다.

 

2. HDFS 탄생배경

-기존의 방식 :

 

 

 

클라이언트가 정보를 요청하면 웹 서버는 데이터 베이스에서 정보를 입력 수정 삭제를 함

 

 

-데이터가 점점 커짐 :

Ex. 구글 사용자들이 많이 업로드, 데이터는 점점 늘어나서 좋지만 구글 검색속도가 방대한 양의 데이터를 검색하는 시간이 느려짐.

 

 

 

 

-NoSQL등장 :

값싸게 DB용량을 늘리긴 했으나 방대한 데이터를 서버로 옮겨서 처리하기에는 아직도 처리속도가 너무 느리고 검색속도도 여전히 느림

 

 

 

 

 

-새로운 빅데이터 전용 알고리즘, 파일시스템 :

 

 

 

 

구글파일시스템 / 맵 리듀스 알고리즘

방대한 데이터를 서버에 전송하는 것보다 여러 개의 서버를 구매해가지고 직접 서버들의 데이터를 저장하는게 더 비용이 저렴해서 가능한 일이다. 데이터가 서버 파일시스템에 저장되어 있으니까 네트워크 지연속도가 일단 감소, 이미 각각의 서버에서 복잡한 계산이 완료된 데이터들을 중간서버에서 간단하게 병합만 해주면 되니까 처리속도가 엄청 개선됨 -> 구글파일 시스템

+ 오픈소스로 탄생 : 구글이란 이름을 빼고 하둡을 넣어 HDFS 탄생