차세대 데이터 아키텍처의 운영 하둡

동영상: [2020 데이터 컨퍼런스] “차세대 데이터 플랫폼 전략 ‘데이터 패브릭’” / 안현주 데이터스트림즈 본부장

콘텐츠

차세대 데이터 아키텍처 란 무엇입니까?
차세대 아키텍처에 대한 하둡의 기대
하둡이 차세대 데이터 아키텍처에 추가 할 수있는 가치는 무엇입니까?
엔터프라이즈 데이터 아키텍처로서의 성능 향상
하둡과 다른 기술의 차이점
결론

출처 : Romeo1232 / Dreamstime.com

테이크 아웃 :

하둡은 방대한 양의 데이터를 처리 할 수있는 능력으로 인해 차세대 데이터 아키텍처의 핵심 플레이어가 될 것입니다.

하둡의 유틸리티는 업계가 더 많은 것을 요구함에 따라 빅 데이터 처리 및 분석을 넘어 서기 시작했습니다. 하둡은 원래의 강점을 유지하면서 엔터프라이즈 데이터 아키텍처와 관련된 다양한 요구 사항을 꾸준히 수용하고 있습니다. 하둡이 할 수 있고 현재하고있는 일의 목록은 꽤 길다. 하둡은 이제 기존 기술에서 기대했던 작업 인 대량의 트랜잭션 워크로드를 처리 할 수있게되었습니다. 앞으로 Hadoop에는 많은 가능성이 있습니다. 예를 들어, SQL 기반 트랜잭션 시스템은 Hadoop SQL 엔진을 활용할 수 있으며 Hadoop은 많은 RDBMS 기능도 추가 할 것입니다. 하둡이 엔터프라이즈 아키텍처 기능과 데이터 처리 및 분석 기능의 하이브리드가되고 있다고 말할 수 있습니다.

차세대 데이터 아키텍처 란 무엇입니까?

간단히 말해서 차세대 데이터 아키텍처는 진화 된 형태의 데이터 아키텍처입니다. 데이터 수집, 저장, 배열, 분석 또는 처리, 통합, 사용 및 분배 방법을 관리하는 데이터 모델, 데이터 정책, 규칙 및 표준을 포함한 모든 것이 차세대 데이터 아키텍처에서 발전했습니다.

초기 데이터 아키텍처와 차세대 데이터 아키텍처의 주요 차이점은 후자의 빅 데이터라고도하는 대량의 데이터를 실시간으로 수집, 저장 및 처리 할 수있는 기능입니다. 아키텍처는 개인 정보 보호, 보안 및 데이터 거버넌스 표준을 훼손하지 않고 이러한 모든 복잡한 작업을 수행합니다.

차세대 데이터 아키텍처는 많은 도전에 직면 해 있습니다. 볼륨, 속도 및 다양한 빅 데이터를 처리하는 것은 쉽지 않습니다. 또한 시스템 워크로드를 최적화하고 성능, 속도 및 정확성을 개선하고 비용을 절감해야합니다. 말할 필요도없이, 이전의 데이터 아키텍처는 그러한 요구를 관리 할 필요가 없었습니다.

따라서 CIO와 정보 설계자는 목표 달성에 도움이되는 솔루션을 찾고 있습니다. 운영 하둡은 이와 관련하여 한동안 집중되어 왔으며, 다음 섹션에서는 운영 하둡이 문제를 해결하는 방법에 대해 설명합니다.

차세대 아키텍처에 대한 하둡의 기대

기업들은 더 나은 결과를 제공해야한다는 압박을 받고 있으며 그 효과는 기술에 대한 기대에 미치지 못하고 있습니다. 따라서 하둡은 더 이상 데이터 만 처리 할 것으로 예상되지 않습니다. CIO와 CTO는 하둡에서 더 많은 것을 원합니다. 아래는 Hadoop의 기대 목록입니다. 실제로 하둡은 이미 이러한 기대에 부응하고 있습니다.

하둡은 SQL 기반의 트랜잭션 시스템에서 작동하며 작성, 읽기, 업데이트 및 삭제 기능이 있습니다. 트랜잭션 시스템은 SQL 엔진을 활용합니다. 이 시스템은 또한 POSIX (Portable Operating System Interface)를 완벽하게 준수하고 많은 트랜잭션 볼륨을 처리 할 수 있습니다.

하둡은 백업, 내결함성, 복구 및 재해 복구와 같은 기능을 지원할 것으로 예상됩니다. 하둡이 RDBMS 기능을 갖춘 시스템으로 발전하려면 기존 IT 도구와 호환되어야합니다.

하둡은 이미 일부 개발에서 명백한 기대를 충족시키기 위해 노력하고있다. 하둡은 YARN이 제공하는 리소스 관리 지원을 기반으로 실시간 분석 및 빠른 응답을 제공 할 수 있습니다. YARN은 리소스 관리자 일뿐 아니라 빅 데이터 애플리케이션을위한 대규모 분산 운영 체제입니다. 다양한 전체 데이터베이스 기능을 제공하기 위해 Apache Spark, Apache Hive, Drill 및 MapR-FS (고성능 HDFS 대체)와 같은 분산 메모리 내장 아키텍처 인 Apache Storm과 같은 다른 개발이 작동하는 것으로 알려져 있습니다. 백업, 재해 복구, 내결함성 등 (YARN에 대한 자세한 내용은 YARN (Hadoop 2.0) 프레임 워크의 장점은 무엇입니까?을 참조하십시오)

하둡이 차세대 데이터 아키텍처에 추가 할 수있는 가치는 무엇입니까?

운영 Hadoop이 차세대 데이터 아키텍처에 추가 할 수있는 가치는 두 가지 관점에서 볼 수 있습니다. 하나는 위에서 설명한 기대를 충족하는지 여부와 다른 하나는 추가 작업을 수행하는지 여부입니다. 아래에는 운영 Hadoop이 가져올 수있는 두드러진 가치가 있습니다.

하둡은 이제 HDFS를 통해 플랫폼 내에서 데이터의 확장 성과 관리 효율성을 향상시킬 수 있습니다. 그리고 데이터 운영 체제는 Hadoop의 YARN 애플리케이션을 통해 활성화되었습니다. 이 전략은 기본 수준에서 데이터 아키텍처의 변화를 나타냅니다. 이제 Hadoop은 트랜잭션 지향 데이터베이스, 그래프 데이터베이스 및 문서 데이터베이스와 같은 다양한 유형의 데이터를 저장할 수 있으며 이러한 데이터는 YARN 애플리케이션을 통해 액세스 할 수 있습니다. 데이터를 다른 위치로 복제하거나 이동할 필요가 없습니다.

엔터프라이즈 데이터 아키텍처로서의 성능 향상

운영 Hadoop이 엔터프라이즈 데이터 아키텍처의 핵심 시스템이 되려고합니다. 하둡이 엔터프라이즈 데이터 아키텍처에 더 익숙해 짐에 따라 데이터 사일로가 사라질 것입니다. 거의 모든 측면에서 빠른 개선이있을 것입니다. 보다 효율적인 파일 형식, 더 나은 SQL 엔진 성능, 개선 된 파일 시스템 및 엔터프라이즈 응용 프로그램의 요구를 충족시키는 견고성의 형태로 개선이 진행될 것입니다.

하둡과 다른 기술의 차이점

과거에는 Hadoop과 데이터 엔터프라이즈 기술의 주요 차이점은 Hadoop의 빅 데이터 처리,보고 및 분석 기능이었습니다. 이제 운영 Hadoop이 점점 더 엔터프라이즈 데이터 아키텍처의 일부가됨에 따라 엔터티 간의 차이가 점점 모호 해지고 있습니다. 따라서 운영 Hadoop은 기존 엔터프라이즈 데이터 아키텍처에 대한 탁월한 대안으로 부상하고 있습니다.

결론

하둡은 기대와 진보를 감안할 때 꽤 오랫동안 업계에 초점을 맞출 것입니다. 그러나 하둡에 너무 집중하지 않고 단순히 다른 기술을 무시하는 것이 좋습니다. 다른 기술이 동일한 매개 변수에서 진행되고 하둡을 능가 할 수도 있기 때문입니다. 시장에서 독점권을 갖는 것은 결코 좋지 않습니다. Hadoop 이외의 다른 기술 제조업체가 Hadoop의 성능을 향상시키는 데 도움이되는 더 나은 제품과 플러그인을 제공하도록 동기를 부여하는 것이 좋습니다.