>데이터 처리 과정
데이터 소스(생성) -> 수집 -> 저장 -> 처리 -> 분석 -> 표현
>빅데이터 처리 과정별 기술 영역
과정 |
영역 |
개요 |
생성 |
내부 데이터 |
데이터베이스, 파일관리시스템 |
외부 데이터 |
인터넷으로 연결된 파일, 멀티미디어, 스트림 | |
수집 |
크롤링 |
검색 엔진의 로봇을 사용한 데이터 수집 |
ETL |
소스 데이터의 추출/전송/변환/적재 | |
저장 |
NoSQL 데이터베이스 |
비정형 데이터 관리 |
스토리지 |
빅데이터 저장 | |
서버 |
초경량 서버 | |
처리 |
맵리듀스 |
데이터 추출 |
프로세싱 |
다중 업무 처리 | |
분석 |
NLP |
자연어 처리 |
기계 학습 |
기계 학습으로 데이터의 패턴 발견 | |
직렬화 |
데이터 간의 순서화 | |
표현 |
가시화 |
데이터를 도표나 그래픽적으로 표현 |
획득 |
데이터의 획득 및 재해석 |
>>① 빅데이터 소스 생성과 수집기술
데이터는 소스 위치에 따라 내부 데이터와 외부 데이터로 구분합니다.
· 내부 데이터 수집 : 주로 자체적으로 보유한 내부 파일 시스템이나 데이터베이스 관리 시스템, 센서 등에 접근하여 정형 데이터를 수집합니다.
· 외부 데이터 수집 : 인터넷으로 연결된 외부에서 비정형 데이터를 수집합니다.
데이터 수집은 주로 툴, 프로그래밍으로 자동으로 수집하는데, 수집방법으로는 로그 수집기, 크롤링, 센싱, RSS
리더/오픈 API, ETL(추출/변환/적재) 가 있습니다.
>>② 빅데이터 저장 기술
데이터에서 의미 있는 정보를 추출하려면 효율적으로 저장 관리하는 기술이 필요합니다. 데이터 저장 관리는 추후 사용할 수 있도록 데이터를 안전하고 효율족으로 저장하는 것으로, 빅데이터는 '대용량, 비정형, 실시간성' 속성을 수용할 수 있는 저장 방식이 필요합니다. 특히 대량의 데이터를 파일 형태로 저장할 수 있는 기술과 비정형 데이터를 정형화 된 데이터 형태로 저장하는 기술이 중요합니다. 분산 파일 시스템, NoSQL, 병령 DBMS, 네트워크 구성 저장 시스템 등 대표적인 기술이 있습니다.
접근방식 |
설명 |
제품 |
분산 파일 시스템 |
컴퓨터 네트워크로 공유하는 여러 호스트 컴퓨터 파일에 접근할 수 있는 파일 시스템 |
GFS(Google File System), HDFS(Hadoop Distributed File System), 아마존 S3 파일 시스템 |
NoSQL |
데이터 모델을 단순화해서 관계형 데이터 모델과 SQL을 사용하지 않는 모든 DBMS 또는 데이터 저장 장치 |
Cloudata, HBase, Cassandra |
병령 DBMS |
데이터베이스 처리를 동시에 수행 |
VoltDB, SAP, HANA, Vetica |
네트워크 구성 저장 시스템 |
서로 다른 종류의 데이터 저장 장치를 하나의 데이터 서버에 연결하여 총괄적으로 데이터를 저장 및 관리 |
SAN, NAS |
>>③ 빅데이터 처리 기술
빅데이터는 방대한 양의 데이터와 데이터 생성 속도, 데이터 종류의 다양성을 통합적으로 고려할 수 있는 기술이 필요합니다. 대표적인 빅데이터 처리 기술로 맵 리듀스가 있습니다. 현재에는 오픈 소스인 하둡의 성공으로 분산 병렬 데이터 처리 기술의 표준이 되었습니다.
빅데이터 처리 기술에는 빅데이터를 여러 서버로 분산하여 각 서버에서 나누어 처리하고, 이를 다시 모아서 결과
를 정리하는 분산 · 병렬 기술 방식인 빅데이터 일괄 처리 기술과 빅데이터 실시간 처리 기술, 빅데이터 처리 프로그래밍 지원 기술이 있습니다
데이터 처리 기술 솔루션으로는 하둡과 R, NoSQL등이 있습니다. 구체적으로는,
Cassandra(카산드라), Hadoop(하둡), HBase(H베이스), MapReduce(맵 리듀스), NoSQL 이 있습니다.
>>④ 빅데이터 분석 기술
빅데이터 분석에 사용하는 기술은 대부분 통계학과 전산학, 특히 기계 학습과 데이터 마이닝 분야에서는 이미 사용한 것들입니다. 이 분석 기술들의 알고리즘을 대규모로 데이터 처리에 맞게 개선하여 빅 데이터 처리에 적용시키고 있는 것입니다. 분석기술로는 텍스트 마이닝, 웹 마이닝, 소셜 네트워크 분석, 군집화, 기계학습, 감성 분석이 있습니다.
>>⑤ 빅데이터 표현 기술
데이터 분석 결과를 효과적으로 전달하기 위해 3D나 도표를 사용하여 보여주는 것입니다.
[출처 : 빅데이터 컴퓨팅 기술(한빛 아카데미)]
'학부 정리 > 3학년' 카테고리의 다른 글
[3학년-활동] (skt아카데미) 빅데이터의 시초2 (2) | 2017.08.24 |
---|---|
[3학년-활동] (skt아카데미) 빅데이터의 시초1 (0) | 2017.08.23 |
[3학년-활동] (skt아카데미) 빅데이터란? HDFS란? (2) | 2017.07.18 |
[3학년-프로젝트] (고급윈도우프로그래밍) 노룩컬링 게임 (0) | 2017.07.02 |
[3학년-프로젝트] (네트워크프로그래밍) 콘솔 채팅 (0) | 2017.05.28 |