본문 바로가기

빅데이터

(4)
[3학년-활동] (skt아카데미) 빅데이터의 시초2 >Hadoop(하둡) · GFS와 MapReduce 논문을 보고 Doug Cutting과 Mike Casfarella가 이를 오픈 소스로 구현 · Hadoop : 아들의 노란 코끼리 장난감의 이름을 따서 지음 · GFS, MapReduce와 유사한 구조 · GFS -> HDF, MapReduce -> MapReduce · name node가 데이터의 위치를 알려주는 역할, data node에서 실제 데이터를 조회하게 됨 · Hive, Pig, Impala, Tez등이 나오면서 계속 발전함 · 최근에는 Spark가 대세, MapReduce는 점점 사용 안함 >> 아파치 Hive · SQL로 분석 쿼리를 실행하면, 이를 MapReduce코드로 병환하여주는 도구 · MapReduce 코드는 작성하기 아주 불편..
[3학년-활동] (skt아카데미) 빅데이터 처리과정과 기술 +a >데이터 처리 과정 데이터 소스(생성) -> 수집 -> 저장 -> 처리 -> 분석 -> 표현 >빅데이터 처리 과정별 기술 영역 과정 영역 개요 생성 내부 데이터 데이터베이스, 파일관리시스템 외부 데이터 인터넷으로 연결된 파일, 멀티미디어, 스트림 수집 크롤링 검색 엔진의 로봇을 사용한 데이터 수집 ETL 소스 데이터의 추출/전송/변환/적재 저장 NoSQL 데이터베이스 비정형 데이터 관리 스토리지 빅데이터 저장 서버 초경량 서버 처리 맵리듀스 데이터 추출 프로세싱 다중 업무 처리 분석 NLP 자연어 처리 기계 학습 기계 학습으로 데이터의 패턴 발견 직렬화 데이터 간의 순서화 표현 가시화 데이터를 도표나 그래픽적으로 표현 획득 데이터의 획득 및 재해석 >>① 빅데이터 소스 생성과 수집기술 데이터는 소스 위치..
[빅데이터] 빅데이터란? >빅데이터란? 빅 데이터란 기존의 데이터베이스 관리도구의 능력을 넘어서는 대량의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합 조차 포한한 데이터로부터 가치를 추출하고 결과를 분석하는 기술입니다. -위키피디아 >>기존의 데이터베이스 관리도구 · SQL기반의 데이터 베이스 · 주로 컴퓨터 1대에서 돌아가고, 고성능이 필요하면 비싼 컴퓨터를 사용 · 컴퓨터 1대로 처리할 수 있는 용량과 성능의 한계 >>대량(Volume) · 대량 - 컴퓨터 1대로 처리할 수 없는 양(수십TB 이상) · 3V - Volume(규모), Velocity(속도), Variety(다양성) -2012가트너 규모 : 미디어나 위치 정보, 동영상 등과 같이 다루어야 할 데이터의 크기를 말합니다. 물리적인 크기 외에 현재..
[3학년-활동] (skt아카데미) 빅데이터란? HDFS란? 2017년 7월 20일 1시부터 7시까지 t아카데미 토크ON세미나 (8차)"빅데이터(BigData)플랫폼의 이해"세미나 참여했고 세미나에서 들은 내용과 제가 세미나에 가기전 따로 책으로 공부한 내용들을 합쳐서 정리해봤습니다.생각보다 세미나에서 나간 내용들이 많이 어려웠기때문에 모든 내용은 정리하지 못했고 제가 조금 공부한 부분까지만 정리했습니다. 1. 빅데이터란? 빅 데이터란 기존 데이터베이스 관리도구의 능력을 넘어서는 대량(수십 테라바이트)의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술이다. 각종 빅 데이터는 SNS나 이메일 서비스, youtube등 개인들이 각각의 서비스에 저장하는 데이터들을 말하며 모든 데이터가 빅 데이터..