본문 바로가기
Study & Edu/BigData

빅데이터 분류

by 댓츠굿 2018. 2. 18.

ㅇ 빅데이터 아키텍처 단계 
  - 수집, 저장, 처리, 탐색, 분석, 응용

ㅇ 수집기술: (SW) Flume, Fluented, Scribe, Logstash, Chukwa
  = 플럼(아파치 최상위 프로젝트, 원자료 수집기술-통신프로토콜.메시지포맷.발생주기.데이터 크기 등)

ㅇ 저장기술: 
  <분산저장소>
  - HDFS(대용량파일 영구저장)
  - NoSQL(대규모 메시징 데이터 영구저장, HBase.MongoDB.Casandra)
  - 인메모리(Red is, Memcashed)
  - 메시지 오리엔티드 미들웨어(대규모 메시징 데이터를 임시저장, Kafka.RabbitMQ, ActiveMQ)
  - 예: 분산파일시스템은 하둡, NoSQL 저장소로는 HBase, 분산캐시저장소는 레디스, 메시지저장소는 카프카(Kafka)
  = 카프카: 대규모 발생 매시지성 데이터를 비동기방식으로 중계
  = 하둡: 대용량 데이터 분산저장, 분산저장 데이터를 분석 
  = 하둡 맵리듀스: 분산작업 스케쥴, 작업결과 공유
  = 주키퍼: 공유 서버간 이벤트 관리 등 상호작용 조율해 주는 코디내이터 시스템(분산락, 순서제어, 부하분산, 내임서비스 등)
  = HBase: 컬럼지향 NoSQL 데이터베이스
  = 레디스: 분산캐시시스템, IMDG SW(인매모리 DB)
  = 스톰: 실시간 대이터를 병렬프로세스로 처리 SW
  = 에스퍼: 실시간 스트리밍 데이터의 복잡한 이벤트 처리 롤엔진 

ㅇ 처리.탐색기술:
  - 탐색(SQL on Hadoop)
  - 예: 탐색기술 휴(Hue), 하이브, 스파크 SQL 사용, 후처리 워크플로 작업은 우지(Oozie)
  = 하이브: 기존 맵리듀스를 이용한 탐색시 높은 프로그램밍을 개선해 SQL가 유사하게 데이터의 접근성을 높임 (피그: 하이브와 유사 피그라틴 언어제공)
  = 스파크: 하이브가 접근성은 좋으나 성능면에선 부족, 고성능 인메모리 분석(DISK UP 감소), 다양한 클라이언트 라이브러리 제공
  = 우지: 워크플로우
  = 휴: 하둡 대시보그로 통합 UI제공

ㅇ 분석.응용기술
  - 군집, 분류, 회귀, 추천 등 고급분석
  - 예: 분석응용기술로 임팔라, 제플링, 머하웃이 있으며 응용에서 외부RDBM에 데이터제공(export)한다
  = 임팔라: 맵리듀스를 대체하는 SQL on Hadoop
  = 제플린: 대용량 데이터셋을 빠르게 탐색.분석
  = 머하웃: 하둡생태계에서 머신러닝 기법을 이용해 데이터마이닝을 수행하는 툴
  = 스쿱: RDBMS를 전처리 없이 HDFS적재

ㅇ 빅데이터 아키텍처 레이어
  - 전처리(수집.적재)-> 하둡 ->후처리(탐색.분석)


출처: https://blog.naver.com/yhc98/221037283074



반응형