ㅇ 빅데이터 아키텍처 단계
- 수집, 저장, 처리, 탐색, 분석, 응용
ㅇ 수집기술: (SW) Flume, Fluented, Scribe, Logstash, Chukwa
= 플럼(아파치 최상위 프로젝트, 원자료 수집기술-통신프로토콜.메시지포맷.발생주기.데이터 크기 등)
ㅇ 저장기술:
<분산저장소>
- HDFS(대용량파일 영구저장)
- NoSQL(대규모 메시징 데이터 영구저장, HBase.MongoDB.Casandra)
- 인메모리(Red is, Memcashed)
- 메시지 오리엔티드 미들웨어(대규모 메시징 데이터를 임시저장, Kafka.RabbitMQ, ActiveMQ)
- 예: 분산파일시스템은 하둡, NoSQL 저장소로는 HBase, 분산캐시저장소는 레디스, 메시지저장소는 카프카(Kafka)
= 카프카: 대규모 발생 매시지성 데이터를 비동기방식으로 중계
= 하둡: 대용량 데이터 분산저장, 분산저장 데이터를 분석
= 하둡 맵리듀스: 분산작업 스케쥴, 작업결과 공유
= 주키퍼: 공유 서버간 이벤트 관리 등 상호작용 조율해 주는 코디내이터 시스템(분산락, 순서제어, 부하분산, 내임서비스 등)
= HBase: 컬럼지향 NoSQL 데이터베이스
= 레디스: 분산캐시시스템, IMDG SW(인매모리 DB)
= 스톰: 실시간 대이터를 병렬프로세스로 처리 SW
= 에스퍼: 실시간 스트리밍 데이터의 복잡한 이벤트 처리 롤엔진
ㅇ 처리.탐색기술:
- 탐색(SQL on Hadoop)
- 예: 탐색기술 휴(Hue), 하이브, 스파크 SQL 사용, 후처리 워크플로 작업은 우지(Oozie)
= 하이브: 기존 맵리듀스를 이용한 탐색시 높은 프로그램밍을 개선해 SQL가 유사하게 데이터의 접근성을 높임 (피그: 하이브와 유사 피그라틴 언어제공)
= 스파크: 하이브가 접근성은 좋으나 성능면에선 부족, 고성능 인메모리 분석(DISK UP 감소), 다양한 클라이언트 라이브러리 제공
= 우지: 워크플로우
= 휴: 하둡 대시보그로 통합 UI제공
ㅇ 분석.응용기술
- 군집, 분류, 회귀, 추천 등 고급분석
- 예: 분석응용기술로 임팔라, 제플링, 머하웃이 있으며 응용에서 외부RDBM에 데이터제공(export)한다
= 임팔라: 맵리듀스를 대체하는 SQL on Hadoop
= 제플린: 대용량 데이터셋을 빠르게 탐색.분석
= 머하웃: 하둡생태계에서 머신러닝 기법을 이용해 데이터마이닝을 수행하는 툴
= 스쿱: RDBMS를 전처리 없이 HDFS적재
ㅇ 빅데이터 아키텍처 레이어
- 전처리(수집.적재)-> 하둡 ->후처리(탐색.분석)
출처: https://blog.naver.com/yhc98/221037283074
'Study & Edu > BigData' 카테고리의 다른 글
하둡 설치 [1] Virtualbox와 CentOS(DVD ISO) 설치 (0) | 2017.09.10 |
---|---|
맵리듀스 실습 및 설정 (0) | 2015.03.21 |
빅데이터 2틀째 수업, 마지막 시간 필기 (0) | 2015.03.14 |
수업 두번 째 날 - server1, server2, server3 설정 및 확인 (0) | 2015.03.14 |
vi /etc/profile 안의 내용 - 파란줄만 설정하면 의사분산모드에서 전역에 등록하는법 (0) | 2015.03.07 |