머신 러닝 시장의 데이터 카탈로그 및 성숙

동영상: [주문형 웨비나] 머신 러닝 데이터 카탈로그에 대한 준비가 되셨습니까?

콘텐츠

인포 노믹스 명령
버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드
비즈니스를위한 데이터 카탈로그의 기능
기계 학습에 추가
선택하는 방법

출처 : Nmedia / Dreamstime.com

테이크 아웃 :

MLDC 시장은 성장하고 있으며 머신 러닝으로 빅 데이터를 효과적으로 활용하려는 기업은 해당 분야의 상위 이름과 개별 순위를 알고 있어야합니다.

이것은 빅 데이터의 시대입니다. 우리는 정보가 너무 많아 져서 비즈니스가 정보를 관리하고 정보를 추출하는 데 어려움을 겪고 있습니다.

오늘날 빅 데이터 흐름에는 볼륨, 다양성 및 속도뿐만 아니라 복잡성이 수반됩니다. SAS는 빅 데이터 히스토리 및 현재 고려 사항에서 "여러 소스에서 스트림을 가져와 시스템 전체의 데이터를 연결, 일치, 정리 및 변환하기가 어렵습니다."라고 설명합니다. (빅 데이터에 대해 더 자세히 알고 싶으십니까? (빅) 데이터 빅 퓨처를 확인하십시오.)

귀중한 통찰력을 찾는 것은 가능한 많은 데이터를 모으는 것이 아니라 올바른 데이터를 찾는 것입니다. 수동 프로세스로 모든 작업을 수행하는 것은 불가능합니다. 그렇기 때문에 점점 더 많은 기업들이 "데이터 액세스를 민주화하고, 부족 데이터 지식이 정보를 선별하고, 데이터 정책을 적용하며, 비즈니스 가치를위한 모든 데이터를 신속하게 활성화하기 위해 데이터 카탈로그를 사용하고 있습니다."

여기에서 데이터 카탈로그 (정보 카탈로그라고도 함)가 그림에 입력됩니다. 여기에 정의 된대로 "사용자는 필요한 데이터 소스를 탐색하고 탐색 한 데이터 소스를 이해하고 동시에 조직이 현재 투자에서 더 많은 가치를 달성하도록 지원할 수 있습니다." 이를 수행하는 방법 중 하나는 데이터를 사용하거나 기여할 수있는 여러 유형의 사용자 중 데이터에 훨씬 더 많이 액세스 할 수 있도록하는 것입니다.

인포 노믹스 명령

가트너는 2017 년 말 데이터 카탈로그에 대한 수요가 급격히 증가함에 따라이를 "새로운 블랙"이라고 불렀습니다. 그들은 점점 더 분산되고 조직화 된 데이터 자산을 조직화하고 정보 공급망을 매핑하는 빠르고 경제적 인 솔루션으로 인식되고있었습니다. 이에 대한 필요성은 "정보학"의 부상으로 인해 발생했으며, 이는 다른 비즈니스 자산을 관리 할 때와 동일한 정보를 추적하는 데 동일한 세심한 정보를 적용해야합니다. 공급망에 대한 자세한 내용은 기계 학습이 공급망 효율성을 개선하는 방법을 참조하십시오.

가트너는 2018 년 2 분기 The Forrester Wave ™ : 머신 러닝 데이터 카탈로그로 지브를 잡았습니다.이 보고서에 참여한 설문 조사 참가자의 절반 이상이 데이터 카탈로그 구현을 구축 할 계획이라고 말했습니다. 아마도 그들은 각자 조직에 적어도 7 개의 데이터 레이크가 있다는 사실에 큰 동기를 부여했을 것입니다. Gartner가 데이터 카탈로그를 설명함에 따라 데이터 카탈로그는 일반적으로 데이터 레이크에서 분류되지 않은 형태로 남아있는 "데이터의 단점, 의미 및 가치"를 끌어내는 데 특히 유용합니다.

Forrester는 2017 년 데이터 및 분석 의사 결정자의 3 분의 1 이상이 1,000TB 이상의 데이터를 처리했다고 전했습니다.이 수치는 전년도 10 ~ 14 %에 불과합니다. 이러한 규모로 데이터를 관리하는 것은 점점 더 어려워지고 있습니다.

"1) 기존 비즈니스 프로세스를 병합하여 데이터를 소스로 분석하여 통찰력을 구현하고 2) 데이터가 증가함에 따라 데이터를 수집, 수집, 관리 및 관리합니다."

버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

비즈니스를위한 데이터 카탈로그의 기능

Gartner는 데이터 카탈로그가 조직의 정보 흐름 및 생산성을 향상시킬 수있는 구체적인 방법을 식별합니다.

조직에서 사용할 수있는 최신 정보 자산 인벤토리를 수집하고 전달합니다.
조직 데이터의 의미 론적 해석 및 의미를 정의하는 비즈니스 용어에 대한 공통 용어집을 작성함으로써 정의 불일치를 중재하고 해결하는 수단을 제공합니다.
역동적이고 민첩한 협업 환경을 통해 비즈니스 및 IT 동료가 데이터에 대해 의견을 말하고 문서를 작성하고 공유 할 수 있습니다.
계보 및 영향 분석을 통해 데이터 사용 투명성을 제공합니다.
정보 거버넌스 프로세스를 지원하는 데이터 모니터링, 감사 및 추적
데이터 사용 및 재사용, 쿼리 최적화 및 데이터 인증에 대한 내부 분석을 향상시키기 위해 메타 데이터를 캡처합니다.
존재하는 데이터, 데이터의 출처, 사용되는 데이터, 필요한 이유, 프로세스와 시스템 간 데이터 흐름, 책임이있는 사람, 의미를 캡처, 의사 소통 및 분석하여 비즈니스 사용량 내에서 정보를 비교 그리고 그 가치가 무엇인지.

가트너 보고서는 "디지털 비즈니스 성과를 위해 데이터 자산으로 수익을 창출하는 방법"을 찾는 것이 아니라, 업계의 규정에 따라 규제를 준수하는 방법을 찾는 것이 중요하다고 Gartner 보고서는 말합니다. HIPAA (Health Insurance Portability and Accountability Act)와 같거나 GDPR (General Data Protection Regulation)과 같은보다 일반적인 성격에 해당합니다.

기계 학습에 추가

그러나 단점이없는 것은 없습니다. 데이터 카탈로그의 경우 문제는 느리고 지루한 프로세스로 인해 배치해야하는 모든 메타 데이터를 사용하여 수동으로 데이터베이스를 구축해야했습니다. 이것이 바로 머신 러닝 구성 요소입니다.

Forrester가 평가 한 데이터 카탈로그는 MLDC라고합니다. AI의 구성 요소 중 하나 인 머신 러닝의 힘을 활용하기 때문입니다. Podium Data 블로그에서 설명했듯이, "메타 데이터의 영구 저장소를 구축 한 다음 ML / AI를 적용하여 기본 데이터 자산에 대한 잠재적 인 유용한 통찰력을 공개하고 노출시킬 수 있습니다."

선택하는 방법

기업이 어떤 사업을 선택해야하는지 평가할 수 있도록 Forrester는 상위 12 개 MLDC에 29 점의 평가를 적용했습니다. 이 시장의 리더는 IBM, Relito, Unifi Software, Alation 및 Collibra로 식별되었습니다. 강력한 성능은 Informatica, Oracle, Waterline Data, Infogix, Cambridge Semantics 및 Cloudera입니다. Hortonworks는 "컨텐더"직급에 서 있습니다.

그러나 전체 순위만으로는 가면 안됩니다. 이 보고서는 각각의 강점과 약점을 세분화합니다. 따라서 연구 및 개발과 같은 특정 기능이 조직에 가장 중요한 경우 Hortonworks는 해당 측면에서 IBM 및 Colilbra와 동등한 것으로 간주 할 수 있습니다. Alation과 Coloudera보다 2 포인트 높고 Cambridge Semantics보다 4 포인트 뛰어납니다.

따라서 Forrester 보고서는이 보고서를 지침으로 사용하는 사람들에게 최고의 회사가 모든 사람에게 최고의 선택이라고 가정하지 않도록 조언합니다. 그들은 특정 요구 사항을 충족시키는 것을 찾기 위해 평가 분석에 세심한주의를 기울여야합니다.