Hadoop Analytics : 데이터를 결합하려면 소스에 독립적 인 접근이 필요합니다

동영상: The Third Industrial Revolution: A Radical New Sharing Economy

출처 : Agsandrew / Dreamstime.com

테이크 아웃 :

소스 인식 방법은 Hadoop 분석을위한 데이터 처리에 이상적입니다.

하둡에서 데이터 소스를 결합하는 것은 복잡한 사업입니다. 이에 대한 몇 가지 이유는 다음과 같습니다.

데이터 소스를 결합한 사용자 지정 소스 별 스크립트는 문제가 있습니다.
데이터 통합 또는 데이터 과학 도구를 사용하면 불확실성이 너무 높아집니다.
외부 소스에서 데이터를 추가하는 것은 불가능합니다.

오늘은 내부 및 외부 데이터 소스를 쉽게 결합 할 수있는 소스 독립적 인 기술을 통해 Hadoop 분석이 어떻게 향상되는지 논의하겠습니다. 소스 불가지론 적 방법의 작동 방식을 설명하는 것 외에도 Hadoop 분석에 내장 인텔리전스 및 지식 전달 기능, 관계 및 데이터 특성에 대한 이해, 확장 가능한 고성능 아키텍처가 필요한 이유도 설명합니다.

소스 불가지론 적 방법 통계적으로 건전하고 반복 가능한 데이터 과학 프로세스를 사용하여 새로운 데이터 소스를 추가 할 수있는 유연한 엔터티 해상도 모델이 포함됩니다. 이러한 프로세스는 알고리즘을 활용하여 데이터에서 지식을 수집하고이를 평가, 분석하여 최상의 통합 접근 방식을 결정합니다.
원본 소스 레코드가 어떻게 단편화되거나 불완전하더라도 Hadoop 분석 기술은 소스에 구애받지 않고 소스 데이터를 변경하거나 조작하지 않고도 데이터를 통합 할 수 있어야합니다. 이러한 기술은 또한 데이터 내용과 개인에 대한 속성 및 이들이 어떻게 세상에 존재하는지에 따라 엔티티 색인을 만들어야합니다. 이를 위해서는 데이터 내용, 구성, 구조 및 구성 요소 간의 관계를 이해해야합니다.
기본 제공 데이터 과학 및 데이터 통합 전문 지식 높은 수준의 정확성과 정확성으로 데이터를 정리, 표준화 및 상관시킬 수 있습니다. 시각화 도구 및 보고서는 분석가가 데이터를 평가하고 학습하고 프로세스 내의 여러 단계에서 얻은 지식을 기반으로 시스템 튜닝을 수행하는 데 도움이됩니다.
관계 이해 엔터티간에보다 정확한 엔터티 확인 프로세스가 수행됩니다. 실제 엔터티는 속성의 합계 일뿐 아니라 연결이기도하기 때문에 관계 지식을 사용하여 레코드가 동일한시기를 감지해야합니다. 이는 코너 케이스 및 빅 데이터를 처리 할 때 특히 중요합니다.
데이터 특성 데이터 소스 내의 정보를 식별하고 제공하여 데이터의 분석, 분석 및 연결을 개선합니다. 구조화 된 정보 열 내에서 데이터의 내용, 밀도 및 분포를 검증하는 데 도움이 될 수 있습니다. 데이터 특성 분석은 또한 구조화 된 소스와의 상관을 위해 비정형 및 반 구조화 된 소스에서 중요한 엔티티 관련 데이터 (이름, 주소, 생년월일 등)를 식별하고 추출하는 데 사용될 수 있습니다.
확장 가능한 병렬 아키텍처 수백 개의 정형, 반 정형 및 비정형 데이터 소스 및 수 천억 개의 레코드를 지원할 때에도 신속하게 분석을 수행합니다.

하둡은 세상이 분석을 수행하는 방식을 바꾸고 있습니다. 새로운 소스 독립적 분석이 Hadoop 에코 시스템에 추가되면 조직은 많은 내부 및 외부 데이터 소스에 점을 연결하여 이전에는 불가능했던 통찰력을 얻을 수 있습니다.