클라우데라 하둡(Cloudera Hadoop)
먼저 클라우데라를 소개하면
- 하둡 기반 빅데이터 벤처기업의 대표적인 선두주자로 야후, 오라클, 출신 등의 사람들에 의해 2008년 설립
- 여기서 만든 CDH라는 하둡 배포판이 아파치 파운데이션이 만든 아파치 하둡 배포판보다 훨씬 더 많이 사용됨
하둡은
- 대용량 자료를 처리할 수 있는 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈소스 자바 프레임워크
- 하둡은 크게 분산 저장과 병렬 처리, 2개의 프레임워크로 구성
- 분산 저장은 클러스터 환경에서 대용량 데이터를 분산하여 안정적으로 저장하는 프레임워크
- 병렬 처리는 저장 환경 위에서 병렬로 데이터 Processing하는 프레임워크
- 여러 대의 컴퓨터를 모아 디스크를 묶어서 쓸 수 있게 하는 분산 저장소와, CPU를 동시에 쓸 수 있는 병렬 처리 소프트웨어 라이브러리
하둡의 목적은
- 매우 큰 데이터를 저장할 수 있어야 한다 -> HDFS
- 그 데이터를 이용해서 연산을 수행할 수 있어야함 -> 맵리듀스
정도로 정리할 수 있다. 학부생수준(내수준)에서 이해하기 쉽게ㅋㅋㅋ
하둡파일시스템을 HDFS라고 부른다. Hadoop Distributed File System
- HDFS마스터는 슬레이브 노드 사이의 저장 공간을 분할하고 데이터 저장 위치를 관리하는 책임을 담당
- 네임노드는 어떤 데이터노드가 각 파일 블록을 관리하는지 등과 같은 파일시스템에 대한 메타데이터를 메모리에 보관
- 데이터노드는 파일 읽기 및 쓰기를 위해 통신
- 파일은 블록으로 구성되며, 각 파일은 여러 차례 복제된다. 이는 파일의 블록별로 동일한 복사본이 여러 개 있다는 뜻이다.
- Hdfs는 장애가 발생해도 데이터를 잃지 않는 견고성, 하드웨어 추가로 성능을 향상하는 확장성, 클러스터 내의 여러 노드에 데이터분할 등의 기능이 있다.
추가로 하트비트까지 살펴보면
- 데이터노드는 네임노드에게 하트비트를 3초마다 보낸다. 하드비트에는 디스크 가용 공간정보, 데이터이동, 적재량 등의 정보가 들어있다. 핸드셰이킹에 사용되며 네임노드는 하트비트를10초이상 못받으면 사용하지 못한다고 인식한다.
시간날때 맵리듀스와 맵리듀스잡에 대해 올려보겠다
출처: https://sjh836.tistory.com/12?category=680973 [빨간색코딩]
'Big Data > Hadoop' 카테고리의 다른 글
[Hadoop] HDFS 디렉토리별 용량 체크하는 방법 (0) | 2021.05.06 |
---|---|
하둡(Hadoop) 데이터 복사, 로컬 및 클러스터간 (0) | 2021.05.06 |
[Hadoop] Hadoop Cluster? - HDFS, MapReduce, Yarn (0) | 2021.05.06 |
[Hadoop] 빅데이터를 처리하기 위한 하둡 (0) | 2021.05.06 |
클러스터 매니저(Cluster Manager) Yarn의 아키텍쳐 및 역할 (0) | 2021.05.06 |
하둡의 기본 개념 (HDFS, heartbeat, MapReduce, MapReduce job) (0) | 2021.03.24 |