YARN (Hadoop 2.0) 프레임 워크의 장점은 무엇입니까?

작가: Roger Morrison
창조 날짜: 18 구월 2021
업데이트 날짜: 1 칠월 2024
Anonim
Hadoop Yarn이란? | Hadoop Yarn 튜토리얼 | Hadoop Yarn 아키텍처 | COSO IT
동영상: Hadoop Yarn이란? | Hadoop Yarn 튜토리얼 | Hadoop Yarn 아키텍처 | COSO IT

콘텐츠


출처 : Jim Hughes / Dreamstime.com

테이크 아웃 :

YARN은 Hadoop 1.0 프레임 워크에 비해 크게 개선되었습니다. 여기서 우리는 이전 모델에 비해 어떤 이점이 있는지 살펴 봅니다.

빅 데이터의 개념이 소개 된 이후로 여러 단계의 진화를 거듭해 왔습니다. Hadoop은 2005 년에 클러스터에 분산 된 대규모 데이터 처리 워크로드를 허용하는 MapReduce 처리 엔진과 같은 일부 초기 기능으로 도입되었습니다. 하둡 자체는 많은 변화를 겪었으며 고급 프레임 워크와 방법을 개발했습니다.

YARN은 Hadoop 2.0의 핵심 구성 요소입니다. 기본적으로 클러스터 환경에서 리소스를 관리합니다. YARN 브로커는 컴퓨팅 리소스 (응용 프로그램 대신)와 상호 작용하고 서로 다른 필터링 기준에 따라 각 응용 프로그램에 리소스를 할당합니다.

이 기사에서는 Hadoop 1.0에 비해 YARN의 주요 장점을 살펴 봅니다.

YARN 프레임 워크는 무엇입니까?

와이et 에이nother 아르 자형자원 egotiator는 클러스터 환경에서 리소스를 관리하는 Hadoop 2.0의 핵심 구성 요소입니다. Hadoop YARN 프레임 워크는 향상된 성능을 제공하는 Hadoop 1.0의 고급 버전으로, Hadoop 에코 시스템 및 이와 관련된 모든 기술에 유리합니다. YARN에 대해 좀 더 친숙해 졌으므로 Hadoop 1.0과 YARN에 대해 자세히 살펴 보겠습니다.

하둡 1.0 프레임 워크의 한계

YARN 프레임 워크의 장점을 이해하려면 Hadoop 1.0의 작동 방식과이 프레임 워크의 제한 사항을 이해하는 것이 매우 중요합니다.


여기서 JobTracker의 역할이 시작됩니다. 클러스터 자원을 모두 관리하고 MapReduce 작업 실행을 결정합니다. 간단히 말해 JobTracker는 작업 슬롯을 예약 및 예약하고 실행중인 각 작업을 구성 및 모니터링합니다. 작업이 실패하면 작업을 다시 시작하기 위해 새 슬롯을 재 할당합니다. 작업이 완료되면 JobTracker는 다른 작업을위한 슬롯을 해제하고 임시 자원을 정리합니다.

위의 접근 방식의 주요 단점 :

  • 가용성 – JobTracker는 Hadoop 1.0의 유일한 가용성 지점입니다. 즉, JobTracker가 실패하면 기본적으로 모든 작업이 다시 시작됩니다.
  • 제한된 확장 성 – JobTracker가 여러 작업을 수행하고 단일 시스템에서 실행 중이므로 사용 가능한 다른 시스템은 사용되지 않습니다. 따라서 확장 성이 제한됩니다.
  • 자원 이용률 – 위의 접근 방식에서 맵 슬롯 및 축소 슬롯이 미리 ​​정의되어 있습니다. 슬롯 중 하나가 가득 차 있지만 다른 머신 슬롯이 비어있을 수 있습니다. 빈 슬롯은 예약되어 있기 때문에 전체 슬롯을 손상시키지 않고 유휴 상태가됩니다. 리소스 사용 문제가 발생할 수 있습니다.
  • MapReduce가 아닌 응용 프로그램 실행 – JobTracker는 MapReduce 프레임 워크 용으로 작성된 응용 프로그램입니다. 비 MapReduce 애플리케이션이이 프레임 워크에서 실행을 시도 할 때 문제점이 발생합니다. 응용 프로그램이 성공적으로 실행 되려면 MapReduce 프레임 워크 프로그래밍을 준수해야합니다. 이로 인해 발생하는 몇 가지 일반적인 문제에는 다음과 같은 문제가 있습니다.
    • 임시 쿼리
    • 실시간 분석
    • 접근
  • 계단식 오류 –이 프레임 워크의 주요 문제 중 하나는 노드 수가 4000보다 클 때 발생합니다. 이러한 시나리오에서는 계단식 오류가 발생하여 전체 클러스터가 저하됩니다.

이것들은이 프레임 워크를 다루는 동안 직면 한 주요 제한 사항 중 일부입니다. 언급되지 않은 몇 가지 사소한 제한 사항도 있습니다. YARN 프레임 워크는 이러한 제한을 극복하기 위해 도입되었습니다.


버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

YARN 프레임 워크와 그 장점

Hadoop 2.0에 도입 된 YARN 프레임 워크는 MapReduce의 책임을 공유하고 클러스터 관리 작업을 관리하기위한 것입니다. 이를 통해 MapReduce는 데이터 처리 만 실행할 수 있으므로 프로세스가 간소화됩니다.

YARN은 중앙 자원 관리 개념을 도입했습니다. 이를 통해 여러 응용 프로그램을 Hadoop에서 실행하여 공통 리소스 관리를 공유 할 수 있습니다.

YARN 프레임 워크의 주요 구성 요소 중 일부는 다음과 같습니다.

  • ResourceManager – ResourceManager 구성 요소는 해당 클러스터에있는 모든 자원에 대한 클러스터의 협상자입니다. 또한이 구성 요소는 사용자 작업 관리를 담당하는 응용 프로그램 관리자로 분류됩니다. Hadoop 2.0부터는 모든 MapReduce 작업이 애플리케이션으로 간주됩니다.
  • ApplicationMaster –이 구성 요소는 작업 또는 응용 프로그램이 존재하는 장소입니다. 또한 모든 MapReduce 작업을 관리하며 작업 처리가 완료된 후에 종료됩니다.
  • NodeManager – 노드 관리자 구성 요소는 작업 히스토리의 서버 역할을합니다. 완료된 작업의 정보를 보호 할 책임이 있습니다. 또한 특정 노드의 워크 플로와 함께 사용자의 작업을 추적합니다.

YARN 프레임 워크에는 다양한 작업을 관리하기위한 다양한 구성 요소가 있으므로 Hadoop 1.0의 한계에 어떻게 대처하는지 살펴 보겠습니다.

  • 더 나은 자원 활용 – YARN 프레임 워크에는 작업을위한 고정 슬롯이 없습니다. 공통 자원을 통해 여러 응용 프로그램을 공유 할 수있는 중앙 자원 관리자를 제공합니다.
  • 비 MapReduce 애플리케이션 실행 – YARN에서 스케줄링 및 자원 관리 기능은 데이터 처리 구성 요소와 분리되어 있습니다. 이를 통해 Hadoop은 Hadoop 프레임 워크의 프로그래밍에 맞지 않는 다양한 유형의 응용 프로그램을 실행할 수 있습니다. 하둡 클러스터는 이제 독립적 인 대화식 쿼리를 실행하고 더 나은 실시간 분석을 수행 할 수 있습니다.
  • 이전 버전과의 호환성 – YARN은 이전 버전과 호환되는 프레임 워크로 제공되므로 기존 MapReduce 작업을 Hadoop 2.0에서 실행할 수 있습니다.
  • JobTracker가 더 이상 존재하지 않음 – JobTracker의 두 가지 주요 역할은 자원 관리 및 작업 예약이었습니다. YARN 프레임 워크가 도입되면서 이제 두 가지 구성 요소로 분리됩니다.
    • NodeManager
    • ResourceManager

결론

YARN 프레임 워크의 도입으로 Hadoop 개발자를위한 애플리케이션을보다 쉽게 ​​구축 할 수있었습니다. 이제는 더 이상 타사 도구를 사용하여 응용 프로그램을 구현할 필요가 없습니다. YARN은 사용자가 Hadoop 2.0을 사용하여 응용 프로그램을 만들고 데이터를보다 효과적으로 조작 할 수 있도록하는 커다란 변화입니다. 시간이 지남에 따라 Hadoop의 유용성을 향상시키기위한 추가 개발이있을 것입니다. 현재 YARN 프레임 워크는 기존 문제를 처리하고 이전 버전의 MapReduce 모델보다 다재다능한 번거롭지 않은 환경을 만드는 데 중요한 역할을합니다.