알아야 할 10 가지 가장 중요한 하둡 용어

작가: Eugene Taylor
창조 날짜: 10 팔월 2021
업데이트 날짜: 1 칠월 2024
Anonim
Ch08_01.빅데이터 저장과 처리(하둡)
동영상: Ch08_01.빅데이터 저장과 처리(하둡)

콘텐츠



출처 : Trueffelpix / Dreamstime.com

테이크 아웃 :

빅 데이터를 실제로 이해하려면 Hadoop과 그 주변 언어에 대해 약간 이해해야합니다.

대량의 정형, 비정형 또는 반 정형 데이터의 이름 인 빅 데이터는 최소한 기존의 데이터베이스 및 소프트웨어 응용 프로그램을 사용하여 캡처, 저장, 관리, 공유, 분석 및 시각화하기가 어렵다는 악명이 높습니다. 그렇기 때문에 빅 데이터 기술이 방대한 양의 데이터를 효과적이고 효율적으로 관리하고 처리 할 수있는 가능성이 있습니다. 또한 Apache Hadoop은 프레임 워크 및 관련 기술을 제공하여 분산 된 방식으로 컴퓨터 클러스터 전체에서 대용량 데이터 세트를 처리합니다. 따라서 빅 데이터를 실제로 이해하려면 Hadoop에 대해 약간 이해해야합니다. 다음은 하둡과 관련하여 가장 많이 듣는 용어와 그 의미를 살펴 보겠습니다.

그러나 먼저 하둡의 작동 방식을 살펴보십시오

하둡 에코 시스템으로 들어가기 전에 두 가지 기본 사항을 명확하게 이해해야합니다. 첫 번째는 파일이 하둡에 저장되는 방법입니다. 두 번째는 저장된 데이터가 처리되는 방법입니다. 모든 하둡 관련 기술은 주로이 두 영역에서 작동하며보다 사용자 친화적입니다. 하둡이 빅 데이터 문제를 해결하는 방법에서 하둡의 작동 방식에 대한 기본 사항을 알아보십시오.

이제 조건에 따라.

하둡 커먼

Hadoop 프레임 워크에는 기능별로 다른 모듈이 있으며 이러한 모듈은 다양한 이유로 서로 상호 작용할 수 있습니다. Hadoop Common은 Hadoop 에코 시스템에서 이러한 모듈을 지원하기위한 공통 유틸리티 라이브러리로 정의 될 수 있습니다. 이러한 유틸리티는 기본적으로 JAR (Java-based, Archived) 파일입니다. 이 유틸리티는 주로 개발 시간 동안 프로그래머와 개발자가 사용합니다.


하둡 분산 파일 시스템 (HDFS)

HDFS (Hadoop Distributed File System)는 Apache Software Foundation에서 Apache Hadoop의 하위 프로젝트입니다. 이것이 Hadoop 프레임 워크의 스토리지 백본입니다. Hadoop 클러스터라고하는 여러 상용 하드웨어에 걸쳐 분산되고 확장 가능하며 내결함성이있는 파일 시스템입니다. HDFS의 목적은 응용 프로그램 데이터에 대한 높은 처리량 액세스로 대량의 데이터를 안정적으로 저장하는 것입니다. HDFS는 마스터 / 슬레이브 아키텍처를 따릅니다. 여기서 마스터는 NameNode라고하고 슬레이브는 DataNode라고합니다.

MapReduce

Hadoop MapReduce는 Apache Software Foundation의 하위 프로젝트이기도합니다. MapReduce는 실제로 순수하게 Java로 작성된 소프트웨어 프레임 워크입니다. 기본 목표는 분산 환경 (일반 하드웨어로 구성된)에서 대규모 데이터 세트를 완전히 병렬로 처리하는 것입니다. 프레임 워크는 작업 예약, 모니터링, 실행 및 재실행 (작업 실패의 경우)과 같은 모든 활동을 관리합니다.

HBase

Apache HBase는 Hadoop 데이터베이스라고합니다. 기둥 형의 분산 및 확장 가능한 빅 데이터 저장소입니다. 관계형 데이터베이스 관리 시스템이 아닌 NoSQL 데이터베이스 유형이라고도합니다. HBase 응용 프로그램은 Java로 작성되었으며 Hadoop 위에 구축되어 HDFS에서 실행됩니다. HBase는 빅 데이터에 대한 실시간 읽기 / 쓰기 및 임의 액세스가 필요할 때 사용됩니다. HBase는 Google의 BigTable 개념을 기반으로 모델링됩니다.

하이브

Apache Hive는 오픈 소스 데이터웨어 하우스 소프트웨어 시스템입니다. Hive는 원래 Apache Software Foundation에 들어 와서 오픈 소스가되기 전에 개발되었습니다. 분산 Hadoop 호환 스토리지에서 대용량 데이터 세트를 관리하고 쿼리 할 수 ​​있습니다. Hive는 HiveQL이라고하는 SQL과 같은 언어를 사용하여 모든 활동을 수행합니다. (Apache Hive 및 Pig에 대한 간략한 소개에서 자세히 알아보십시오.)


버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

아파치 돼지

Pig는 원래 대량의 분산 데이터에서 MapReduce 작업을 개발하고 실행하기 위해 Yahoo에 의해 시작되었습니다. 이제는 Apache Software Foundation에서 공개 소스 프로젝트가되었습니다. Apache Pig는 매우 큰 데이터 세트를 효율적으로 분석하기위한 플랫폼으로 정의 할 수 있습니다. Pigs 인프라 계층은 실제 처리를 위해 일련의 MapReduce 작업을 생성합니다. Pigs 언어 계층은 Pig Latin이라고하며 분산 데이터 세트에서 쿼리를 수행하는 SQL과 같은 기능을 제공합니다.

아파치 스파크

Spark는 원래 UC Berkeley의 AMPLab에서 개발했습니다. 2014 년 2 월 Apache 최상위 프로젝트가되었습니다. Apache Spark는 데이터 분석을 훨씬 빠르게하는 오픈 소스 범용 클러스터 컴퓨팅 프레임 워크로 정의 할 수 있습니다. Hadoop 분산 파일 시스템 위에 구축되었지만 MapReduce 프레임 워크와 연결되어 있지 않습니다. 스파크 성능은 MapReduce에 비해 훨씬 빠릅니다. Scala, Python 및 Java에서 고급 API를 제공합니다.

아파치 카산드라

Apache Cassandra는 또 다른 오픈 소스 NoSQL 데이터베이스입니다. Cassandra는 여러 데이터 센터 및 클라우드 스토리지에서 대량의 구조적, 반 구조적 및 비 구조적 데이터 범위를 관리하는 데 널리 사용됩니다. Cassandra는 "마스터리스"아키텍처를 기반으로 설계되었으므로 마스터 / 슬레이브 모델을 지원하지 않습니다. 이 아키텍처에서는 모든 노드가 동일하며 모든 노드에 데이터가 자동으로 동일하게 분배됩니다. Cassandra의 가장 중요한 기능은 지속적인 가용성, 선형 확장 성, 기본 제공 / 사용자 정의 가능 복제, 단일 장애 지점 없음 및 운영 단순성입니다.

또 다른 자원 협상가 (YARN)

YARN (또 다른 Resource Negotiator)은 MapReduce 2.0으로도 알려져 있지만 실제로 Hadoop 2.0에 속합니다. YARN은 작업 스케줄링 및 자원 관리 프레임 워크로 정의 될 수 있습니다. YARN의 기본 아이디어는 JobTracker의 기능을 자원 관리 및 스케줄링 / 모니터링을 담당하는 두 개의 개별 데몬으로 대체하는 것입니다. 이 새로운 프레임 워크에는 글로벌 ResourceManager (RM)와 ApplicationMaster (AM)로 알려진 애플리케이션 특정 마스터가 있습니다. 글로벌 ResourceManager (RM) 및 NodeManager (노드 슬레이브 당)는 실제 데이터 계산 프레임 워크를 형성합니다. 기존 MapReduce v1 애플리케이션도 YARN에서 실행할 수 있지만 해당 애플리케이션은 Hadoop2.x jar로 다시 컴파일해야합니다.

임팔라

Impala는 MPP (대규모 병렬 처리) 기능을 갖춘 SQL 쿼리 엔진으로 정의 할 수 있습니다. 기본적으로 Apache Hadoop 프레임 워크에서 실행됩니다. 임팔라는 하둡 생태계의 일부로 설계되었습니다. 다른 Hadoop 에코 시스템 구성 요소에서 사용하는 것과 동일한 유연한 파일 시스템 (HDFS), 메타 데이터, 리소스 관리 및 보안 프레임 워크를 공유합니다. 가장 중요한 점은 Impala가 Hive에 비해 쿼리 처리 속도가 훨씬 빠르다는 것입니다. 그러나 Impala는 소규모 데이터 집합에 대한 쿼리 / 분석을위한 것으로 주로 처리되고 구조화 된 데이터에서 작동하는 분석 도구로 설계되었습니다.

하둡은 IT에서 중요한 주제이지만 장기적인 생존 가능성에 회의적인 사람들이 있습니다. 하둡이란 무엇입니까? 냉소 론.