본문 바로가기

카테고리 없음

[빅데이터] 빅데이터란?

>빅데이터란?

 

빅 데이터란 기존의 데이터베이스 관리도구의 능력을 넘어서는 대량정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합 조차 포한한 데이터로부터 가치를 추출하고 결과를 분석하는 기술입니다.  -위키피디아

 

 

 >>기존의 데이터베이스 관리도구

    · SQL기반의 데이터 베이스

    · 주로 컴퓨터 1대에서 돌아가고, 고성능이 필요하면 비싼 컴퓨터를 사용

    · 컴퓨터 1대로 처리할 수 있는 용량과 성능의 한계

 

 >>대량(Volume)

    · 대량 - 컴퓨터 1대로 처리할 수 없는 양(수십TB 이상)

    · 3V - Volume(규모), Velocity(속도), Variety(다양성)  -2012가트너

     

      규모    : 미디어나 위치 정보, 동영상 등과 같이 다루어야 할 데이터의 크기를 말합니다.

                 물리적인 크기 외에 현재의 기술로 처리 가능한 양인지에 따라 빅데이터를 판단합니다.

      속도    : 대용량의 데이터를 빠르게 처리하고 분석할 수 있는 속성을 말합니다.

      다양성 : 다양한 종류의 데이터를 수용하는 속성을 말합니다. 빅데이터는 정형데이터뿐만 아니라 비정형

                 데이터도 수용합니다.

     

 

 >>기술(Velocity)

    · 기술 - 컴퓨터 1대로 처리하지 못하므로, 여러대를 연결해서 데이터를 저장하고 처리하자!

    · 주로 구글 등 검색엔진 회사들이 웹 전체를 저장하고 처리하려다보니 기술 개발이 필요하게 됨

    · 구글이 이끌고, 야후 등이 오픈소스를 통해 (하둡) 적극 지원, 접근하기 쉬어지고 널리 쓰이기 시작

    · 빅데이터 기술 = 대부분 하둡이라고 생각해도 무방

 

 >>정형 비정형(Variety)

    · SQL기반의 데이터는 거의 행렬 형태로 정형화된 데이터였으나 일반 문서 (웹문서) 등과 같이 비정형화된

      데이터도 초점

 

 >>가치를 추출하고 결과를 분석

    · 데이터를 저장만 해서는 쓸모가 없음

    · 데이터를 읽어드리고, 변환하고, 핵심을 추출하는 것도 마찬가지로 컴퓨터 1대로 할 수 있는 것보다 훨씬

      빨라져야 함

    · 맵리듀스(MapReduce) - 분산 데이터 처리

    · 현재는 스파크(Apache Spark)가 널리쓰임

 

- 노무라 연구소

 

 

 

> 빅 데이터의 필요성

  

  방대한 데이터들에서 다양한 패턴들을 해석하여 미래를 예측하는 기술로서 광고비지니스, 커머스, 금융 분야등

  실제로 사업에 도움이 되기 때문입니다.

 

 

 

 

[출처 : SK토크ON세미나 8차 강의자료, 빅데이터 컴퓨팅 기술(한빛 아카데미)]