본문 바로가기

[2016 - 2019] 학부 정리/3학년

[3학년-활동] (skt아카데미) 빅데이터 처리과정과 기술 +a

>데이터 처리 과정

  데이터 소스(생성) -> 수집 -> 저장 -> 처리 -> 분석 -> 표현

 

 

>빅데이터 처리 과정별 기술 영역

 

과정

영역

개요

생성

내부 데이터

데이터베이스, 파일관리시스템

외부 데이터

인터넷으로 연결된 파일, 멀티미디어, 스트림

수집

크롤링

검색 엔진의 로봇을 사용한 데이터 수집

ETL

소스 데이터의 추출/전송/변환/적재

저장

NoSQL 데이터베이스

비정형 데이터 관리

스토리지

빅데이터 저장

서버

초경량 서버

처리

맵리듀스

데이터 추출

프로세싱

다중 업무 처리

분석

NLP

자연어 처리

기계 학습

기계 학습으로 데이터의 패턴 발견

직렬화

데이터 간의 순서화

표현

가시화

데이터를 도표나 그래픽적으로 표현

획득

데이터의 획득 및 재해석

 

 

 >>① 빅데이터 소스 생성과 수집기술

 데이터는 소스 위치에 따라 내부 데이터와 외부 데이터로 구분합니다.

· 내부 데이터 수집 : 주로 자체적으로 보유한 내부 파일 시스템이나 데이터베이스 관리 시스템, 센서 등에 접근하여 정형 데이터수집합니다.

· 외부 데이터 수집 : 인터넷으로 연결된 외부에서 비정형 데이터를 수집합니다.

데이터 수집은 주로 툴, 프로그래밍으로 자동으로 수집하는데, 수집방법으로는 로그 수집기, 크롤링, 센싱, RSS

리더/오픈 API, ETL(추출/변환/적재) 가 있습니다.

 

 

 

 >>② 빅데이터 저장 기술

 데이터에서 의미 있는 정보를 추출하려면 효율적으로 저장 관리하는 기술이 필요합니다. 데이터 저장 관리는 추후 사용할 수 있도록 데이터를 안전하고 효율족으로 저장하는 것으로, 빅데이터는 '대용량, 비정형, 실시간성' 속성을 수용할 수 있는 저장 방식이 필요합니다. 특히 대량의 데이터를 파일 형태로 저장할 수 있는 기술과 비정형 데이터를 정형화 된 데이터 형태로 저장하는 기술이 중요합니다. 분산 파일 시스템, NoSQL, 병령 DBMS, 네트워크 구성 저장 시스템 등 대표적인 기술이 있습니다.

 

접근방식 

설명 

제품 

 분산 파일 시스템

컴퓨터 네트워크로 공유하는 여러 호스트 컴퓨터 파일에 접근할 수 있는 파일 시스템 

 GFS(Google File System),

 HDFS(Hadoop Distributed File System),

 아마존 S3 파일 시스템 

 NoSQL

 데이터 모델을 단순화해서 관계형 데이터 모델과 SQL을 사용하지 않는 모든 DBMS 또는 데이터 저장 장치

 Cloudata, HBase, Cassandra

 병령 DBMS

 데이터베이스 처리를 동시에 수행

 VoltDB, SAP, HANA, Vetica

 네트워크 구성 저장 시스템

서로 다른 종류의 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리 

 SAN, NAS

 

 

 

 >>③ 빅데이터 처리 기술

 빅데이터는 방대한 양의 데이터와 데이터 생성 속도, 데이터 종류의 다양성을 통합적으로 고려할 수 있는 기술이 필요합니다. 대표적인 빅데이터 처리 기술로 맵 리듀스가 있습니다. 현재에는 오픈 소스인 하둡의 성공으로 분산 병렬 데이터 처리 기술의 표준이 되었습니다.

 

빅데이터 처리 기술에는 빅데이터를 여러 서버로 분산하여 각 서버에서 나누어 처리하고, 이를 다시 모아서 결과

를 정리하는 분산 · 병렬 기술 방식인 빅데이터 일괄 처리 기술빅데이터 실시간 처리 기술, 빅데이터 처리 프로그래밍 지원 기술이 있습니다

 

데이터 처리 기술 솔루션으로는 하둡과 R, NoSQL등이 있습니다. 구체적으로는,

Cassandra(카산드라), Hadoop(하둡), HBase(H베이스), MapReduce(맵 리듀스), NoSQL 이 있습니다.

 

 

 

 >>④ 빅데이터 분석 기술

 빅데이터 분석에 사용하는 기술은 대부분 통계학과 전산학, 특히 기계 학습과 데이터 마이닝 분야에서는 이미 사용한 것들입니다. 이 분석 기술들의 알고리즘을 대규모로 데이터 처리에 맞게 개선하여 빅 데이터 처리에 적용시키고 있는 것입니다. 분석기술로는 텍스트 마이닝, 웹 마이닝, 소셜 네트워크 분석, 군집화, 기계학습, 감성 분석이 있습니다.

 

 

 >>⑤ 빅데이터 표현 기술

데이터 분석 결과를 효과적으로 전달하기 위해 3D나 도표를 사용하여 보여주는 것입니다.

 

 

[출처 : 빅데이터 컴퓨팅 기술(한빛 아카데미)]