Spark가 미래의 빅 데이터 플랫폼 인 이유

콘텐츠

Apache Spark 란 무엇입니까?
하둡보다 스파크가 중요한 이유
스파크 고유 기능은 무엇입니까?
Spark가 Hadoop을 대체하지 않는 이유
Spark와 Hadoop에 대한 기업의 생각
실제 구현
결론

출처 : Snake3d / Dreamstime.com

테이크 아웃 :

Apache Spark는 Hadoop에서 발생하는 (그리고 어떤 방식 으로든) 빅 데이터를 처리하기위한 오픈 소스 도구입니다.

Apache Hadoop은 현재 빅 데이터 애플리케이션의 기반이되어 왔으며 모든 빅 데이터 관련 제품의 기본 데이터 플랫폼으로 간주됩니다. 그러나 인 메모리 데이터베이스 및 계산은 성능이 향상되고 결과가 빠르기 때문에 인기를 얻고 있습니다. Apache Spark는 인 메모리 기능을 사용하여 Hadoop보다 거의 100 배 빠른 빠른 처리를 제공하는 새로운 프레임 워크입니다. 따라서 Spark 제품은 빅 데이터의 세계에서 점점 더 빠른 처리를 위해 점점 더 많이 사용되고 있습니다.

Apache Spark 란 무엇입니까?

Apache Spark는 빠르고 간단한 대량의 데이터 (빅 데이터)를 처리하기위한 오픈 소스 프레임 워크입니다. 빅 데이터 기반 분석 애플리케이션에 적합합니다. Spark는 독립형 또는 클라우드에서 Hadoop 환경과 함께 사용할 수 있습니다. 캘리포니아 대학에서 개발 된 후 나중에 Apache Software Foundation에 제공되었습니다. 따라서 오픈 소스 커뮤니티에 속하며 매우 비용 효율적이므로 아마추어 개발자가 쉽게 작업 할 수 있습니다. Hadoops 오픈 소스에 대한 자세한 내용은 Apache Hadoop 에코 시스템에서 오픈 소스의 영향은 무엇입니까?를 참조하십시오.

Spark의 주요 목적은 개발자에게 중앙 집중식 데이터 구조를 중심으로 작동하는 응용 프로그램 프레임 워크를 제공하는 것입니다. Spark는 또한 매우 강력하며 짧은 시간 안에 대량의 데이터를 신속하게 처리 할 수있는 타고난 능력을 가지고있어 매우 우수한 성능을 제공합니다.가장 가까운 경쟁사 인 하둡보다 훨씬 빠릅니다.

하둡보다 스파크가 중요한 이유

Apache Spark는 여러 기능에서 Hadoop보다 우월한 것으로 알려져 왔으며, 이것이 왜 그렇게 중요한지 설명합니다. 이에 대한 주된 이유 중 하나는 처리 속도를 고려하는 것입니다. 실제로 위에서 언급 한 것처럼 Spark는 동일한 양의 데이터에 대해 Hadoop의 MapReduce보다 약 100 배 빠른 처리 속도를 제공합니다. 또한 Hadoop에 비해 훨씬 적은 리소스를 사용하므로 비용 효율적입니다.

Spark가 우위를 차지하는 또 다른 주요 측면은 리소스 관리자와의 호환성 측면입니다. Apache Spark는 MapReduce와 마찬가지로 Hadoop과 함께 실행되는 것으로 알려져 있지만 후자는 Hadoop 과만 호환됩니다. 그러나 Apache Spark의 경우 YARN 또는 Mesos와 같은 다른 자원 관리자와 작업 할 수 있습니다. 데이터 과학자들은 종종 스파크가 하둡을 능가하는 가장 큰 영역 중 하나로 언급합니다.

사용 편의성 측면에서 Spark는 Hadoop보다 훨씬 더 좋습니다. Spark에는 Spark SQL을 좋아하는 것 외에도 Scala, Java 및 Python과 같은 여러 언어에 대한 API가 있습니다. 사용자 정의 함수를 작성하는 것은 비교적 간단합니다. 또한 명령 실행을위한 대화식 모드를 자랑합니다. 반면 하둡은 Java로 작성되었으며 프로세스를 지원하는 도구가 있지만 프로그래밍하기가 매우 어렵다는 명성을 얻었습니다. Spark에 대한 자세한 내용은 Apache Spark가 신속한 응용 프로그램 개발을 돕는 방법을 참조하십시오.

스파크 고유 기능은 무엇입니까?

Apache Spark에는 데이터 처리 비즈니스에서 많은 경쟁 업체와 차별화되는 고유 한 기능이 있습니다. 이들 중 일부는 아래에 간략하게 설명되어 있습니다.

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

Spark는 머신 러닝 알고리즘을 사용하여 필요한 정보를 핵심에로드 할 수있는 타고난 능력도 가지고 있습니다. 이것은 매우 빠를 수 있습니다.

Apache Spark에는 그래프 나 정보를 그래픽으로 처리 할 수있는 기능이 제공되므로 매우 정밀하게 쉽게 분석 할 수 있습니다.

Apache Spark에는 구조화 된 기계 학습을위한 프레임 워크 인 MLib이 있습니다. 또한 Hadoop보다 구현 속도가 훨씬 빠릅니다. MLib은 통계 판독, 데이터 샘플링 및 전제 테스트와 같은 몇 가지 문제를 해결할 수 있습니다.

Spark가 Hadoop을 대체하지 않는 이유

Spark가 Hadoop보다 우선하는 여러 측면이 있음에도 불구하고 아직 Hadoop을 실제로 대체 할 수없는 몇 가지 이유가 있습니다.

먼저 Hadoop은 Spark와 비교할 때 더 큰 도구 세트를 제공합니다. 또한 업계에서 인정되는 몇 가지 사례가 있습니다. 그러나 Apache Spark는 여전히 도메인에서 아직 어리기 때문에 Hadoop과 동등한 수준에 도달하려면 시간이 필요합니다.

Hadoop의 MapReduce는 본격적인 운영을 수행 할 때 특정 산업 표준을 설정했습니다. 반면에 Spark는 완전한 신뢰성으로 작동 할 준비가되어 있지 않습니다. Spark를 사용하는 조직은 종종 요구 사항에 맞게 준비하기 위해 Spark를 미세 조정해야합니다.

Spark보다 오랜 시간 동안 사용 된 Hadoop의 MapReduce도 구성하기가 더 쉽습니다. Spark의 테스트는 실제로 거친 패치를 테스트하지 않은 완전히 새로운 플랫폼을 제공한다는 점을 고려하면 Spark의 경우에는 해당되지 않습니다.

Spark와 Hadoop에 대한 기업의 생각

많은 회사들이 이미 데이터 처리 요구에 Spark를 사용하기 시작했지만 그 이야기는 끝나지 않습니다. 그것은 놀라운 데이터 처리 플랫폼을 만드는 몇 가지 강력한 측면을 가지고 있습니다. 그러나 수정해야 할 단점도 있습니다.

아파치 스파크 (Apache Spark)가 현재 여기에 있으며 데이터 처리 요구에 대한 미래 일 것이라는 것은 업계의 개념입니다. 그러나 여전히 잠재력을 발휘할 수 있도록 많은 개발 작업과 연마 작업이 필요합니다.

실제 구현

Apache Spark는 데이터 처리 요구 사항에 적합한 수많은 회사에서 계속 사용하고 있습니다. Shopify는 가장 성공적인 구현 중 하나를 수행했으며, 비즈니스 공동 작업에 적합한 상점을 선택하려고했습니다. 그러나 데이터웨어 하우스는 고객이 판매 한 제품을 이해하려고 할 때 시간을 초과하지 않았습니다. Spark의 도움으로이 회사는 수백만 개의 데이터 레코드를 처리 한 다음 몇 분 안에 6,600 만 개의 레코드를 처리 할 수있었습니다. 또한 적합한 상점을 결정했습니다.

Pinterest는 Spark를 사용하여 개발 추세를 파악한 다음이를 사용하여 사용자의 행동을 이해합니다. 이를 통해 Pinterest 커뮤니티에서 더 나은 가치를 얻을 수 있습니다. 스파크는 또한 세계 최대 여행 정보 사이트 중 하나 인 트립 어드바이저에서 방문자에게 권장 사항의 속도를 높이기 위해 사용하고 있습니다.

결론

현재도 Apache Spark의 능력과 테이블에 제공되는 고유 한 기능을 의심 할 수 없습니다. 처리 능력과 속도 및 호환성과 함께 향후 몇 가지 사항을 제시합니다. 그러나 진정한 잠재력을 완전히 실현하기 위해서는 개선해야 할 몇 가지 영역이 있습니다. 하둡은 여전히 현재의 규칙을 따르고 있지만 Apache Spark는 미래가 밝고 미래에는 데이터 처리 요구 사항을위한 미래의 플랫폼으로 여겨지고 있습니다.