품질 빅 데이터 분석의 비결 : 다른 이해-TechWise 에피소드 4 대화

콘텐츠

버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

출처 : Jakub Jirsak / Dreamstime.com

테이크 아웃 :

호스트 Eric Kavanagh는 업계 전문가와 빅 데이터 분석에 대해 논의합니다.

에릭 : 신사 숙녀 여러분, 적어도 2014 년 말입니다. 올해의 마지막 웹 캐스트입니다. 여러분! TechWise에 오신 것을 환영합니다! 네 확실합니다! 제 이름은 Eric Kavanagh입니다. 멋진 웹 캐스트를위한 중재자가 되겠습니다. 정말, 정말 흥분됩니다. 우리는이 전체 빅 데이터 생태계에서 두 명의 훌륭한 분석가와 하나의 위대한 회사, 실제 혁신가를 보유하고 있습니다. 빅 데이터 분석의 핵심은 차이점을 이해하는 것입니다. 자, 여러분, 바로 들어 갑시다.

발표자가 몇 명 있습니다. 보시다시피, 당신의 진정한 상단에 있습니다. 마이크 퍼거슨 (Mike Ferguson)은 영국에서 전화를 걸어 왔으며, 늦게 사무실 건물에 머물기 위해서는 특별한 특권을 받아야했습니다. 그에게 늦었 어. 여기 Bloor Group의 수석 분석가 인 Robin Bloor 박사가 있습니다. 그리고 RedPoint Global의 CEO이자 공동 창립자 인 George Corugedo와 SAS Institute의 수석 솔루션 아키텍트 Keith Renison이 있습니다. 이들은 환상적인 회사입니다. 이들은 정말 혁신하는 회사입니다. 그리고 우리는 지금 빅 데이터의 세계에서 지금 일어나고있는 좋은 것들을 파헤쳐 볼 것입니다. 작은 데이터는 사라지지 않았습니다. 그리고 여기에 제 임원 요약을 드리겠습니다.

그래서 옛 프랑스 표현은 "변화가 많을수록 동일하게 유지됩니다." 빅 데이터는 작은 데이터의 문제를 해결하지 못할 것입니다. 회사의 소규모 데이터는 여전히 존재합니다. 여전히 어디에나 있습니다. 오늘날의 정보 경제 운영의 원동력입니다. 그리고 빅 데이터는 소위 소규모 기업 데이터에 대한 칭찬을 제공하지만 소규모 데이터를 대체하지는 않습니다. 여전히 주변에있을 것입니다. 나는 빅 데이터, 특히 머신 생성 데이터와 같은 것들에 대해 많은 것을 좋아합니다.

오늘은 소셜 미디어 데이터에 대해 조금 이야기 할 것입니다. 이는 매우 강력한 자료이기도합니다. 예를 들어 소셜이 비즈니스를 어떻게 변화 시켰는지에 대해 생각한다면 여기에, LinkedIn 및. 5 년 전에 아무도 그런 종류의 일을하지 않았다는 사실에 대해 생각해보십시오. 요즘 절대적인 저글러입니다. 물론 거대하다. 화려합니다. 그런 다음 LinkedIn은 회사 네트워킹 및 통신에 대한 사실상의 표준입니다. 이 사이트는 우스꽝스럽고 그 안에있는 데이터를 활용할 수 있도록 게임 변경 기능을 다시 활성화 할 것입니다. 최소한 많은 조직, 즉 그것을 활용하는 조직에 많은 도움이 될 것입니다.

버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

따라서 거버넌스 — 거버넌스는 여전히 중요합니다. 다시 말하지만 빅 데이터는 거버넌스의 필요성을 무효화하지 않습니다. 솔직히 말해서, 빅 데이터 세계를 관리하는 방법에 집중해야 할 완전히 새로운 필요성이 있습니다. 절차와 정책이 제대로 갖추어져 있는지 어떻게 확인합니까? 올바른 사람들이 올바른 데이터에 액세스하고 있음; 연락처가 있고 여기에 계보가 포함되어 있습니까? 실제로 데이터가 어디에서 왔는지, 무슨 일이 있었는지 알 수 있습니다. 그리고 그것은 모두 바뀌고 있습니다.

하둡 생태계를 활용하여이 새로운 세상에서 내가 본 것 중 일부에 대해 깊은 감명을 받았습니다. 물론 기능 측면에서 스토리지보다 훨씬 더 많은 것입니다. 하둡은 계산 엔진이기도합니다. 그리고 회사는 계산 능력, 병렬 처리 기능을 활용하는 방법을 찾아야합니다. 그들은 정말 정말 멋진 일을 할 것입니다. 우리는 오늘 그것에 대해 배울 것입니다.

언급해야 할 또 다른 것은 이것이 최근 Dr. Bloor가 이야기 한 것입니다. 혁신의 물결이 끝나지 않았다는 것입니다. 우리는 물론 하둡에 대한 많은 관심을 보았습니다. Cloudera 및 Hortonworks와 같은 회사는 실제로 파도를 만들고 있습니다. 그리고 그들은 오늘날 솔직한 회사들과 파트너쉽을 개발하고 있습니다. 그들은 많은 사람들과 파트너십을 개발하고 있습니다. 그러나 혁신의 물결은 끝나지 않았습니다. Apache Foundation에서 더 많은 프로젝트가 진행되고 있으며, 사용자가 사용하는 응용 프로그램 인 엔드 포인트뿐만 아니라 인프라 자체도 바뀌고 있습니다.

따라서 YARN의 전체 개발 (또 다른 리소스 협상자)은 실제로 빅 데이터 운영 체제와 같습니다. 그리고 그것은 큰 일입니다. 그래서 우리는 그것이 어떻게 변화하는지 배울 것입니다. 따라서 여기에 몇 가지 명백한 조언이 있습니다. 앞으로 장기 계약을 조심하십시오. 5 년, 10 년 계약은 물결이 될 것입니다. 모든 비용으로 잠금을 피하고 싶을 것입니다. 우리는 오늘 그 모든 것에 대해 배울 것입니다.

오늘 우리의 첫 번째 분석가는 – 전체 프로그램의 첫 번째 연설자는 영국에서 온 Mike Ferguson입니다. 그걸로 열쇠를 건네 주겠습니다. 마이크. 마이크 퍼거슨, 바닥은 당신입니다.

마이크, 거기있어? 음소거 상태 일 수 있습니다. 나는 듣지 못한다. 그를 다시 불러야 할 수도 있습니다. 그리고 우리는 바로 Robin Bloor의 슬라이드로 넘어갑니다. 로빈, 난 여기에 마이크 퍼거슨의 열등한 순위를 차지할거야. 나는 잠시 갈 것입니다.

너야, 마이크? 당신은 우리를들을 수 있습니다? 아냐 먼저 로빈과 함께 가야한다고 생각합니다. 자, 잠깐만 기다려주세요. 몇 분 안에 슬라이드로 연결되는 링크도 몇 개 가져옵니다. 그걸로 열쇠를 Robin Bloor에게 건네 주겠습니다. 로빈, 마이크 대신에 먼저 갈 수 있고 잠시 후에 마이크에게 전화하겠습니다.

로빈 : 알겠습니다.

에릭 : 잠깐만, Rob. 어서 가서 슬라이드를 위로 올려 몇 초가 걸릴 것입니다.

로빈 : 알겠습니다.

에릭 : 네. 하지만 거버넌스 측면에서 우리가 다루고있는 것에 대해 이야기 할 수 있습니다. 거버넌스에 대해 이야기 할 것입니다. 그것은 일반적으로 소기업 데이터와 관련하여 생각됩니다. 이제 슬라이드를 올렸습니다. 로빈 아무것도 움직이지 마십시오. 그리고 여기 있습니다. 바닥은 당신입니다. 멀리 가져.

로빈 : 알겠습니다. 네. 음, 우리는 사전에 마이크가 분석적인 측면에 대해 이야기하고, 거버넌스 측면에 대해 이야기했습니다. 어느 정도까지, 거버넌스는 빅 데이터 작업을 수행하는 이유와 분석을 수행하기 위해 모든 소프트웨어를 조립하는 이유, 즉 가치가있는 위치라는 의미에서 분석을 따릅니다.

문제가 있습니다. 그리고 문제는 데이터를 정리해야한다는 것입니다. 데이터를 마샬링해야합니다. 데이터를 확실하게 분석 할 수있는 방식으로 데이터를 수집하고 관리해야합니다. 그래서 제가 이야기 할 것은 방정식의 거버넌스 측면이라고 생각했습니다. 사실, 거버넌스는 이미 문제였습니다. 거버넌스는 이미 문제였으며 데이터웨어 하우스 게임 전체에서 문제가되기 시작했습니다.

실제로 일어난 일은 훨씬 더 큰 문제로 바뀌 었습니다. 더 많은 데이터뿐만 아니라 훨씬 더 큰 문제로 변한 이유는 이것이 사실입니다. 데이터 소스의 수가 급격히 증가했습니다. 이전에는 데이터웨어 하우스에 공급 한 모든 데이터 소스에 의해 정의 된 데이터 소스가 크게 정의되었습니다. 데이터웨어 하우스는 일반적으로 RTP 시스템에 의해 공급됩니다. 외부 데이터가 많지 않을 수도 있습니다.

이제 우리는 데이터 시장이 현재 존재하는 세계로 갔으므로 데이터 거래가 이루어질 것입니다. 조직에 실제로 가져올 수있는 다양한 스트리밍 데이터 소스가 이미 있습니다. 우리는 소셜 미디어 데이터를 가지고 있습니다. 소셜 미디어 사이트의 가치는 실제로 그들이 수집하는 정보이므로 사람들이 이용할 수있게하는 것입니다.

우리는 또한 이미 존재하는 것처럼 발견했습니다. 우리는 이미 Splunk의 출현으로 이러한 로그 파일을 가지고있었습니다. 그리고 곧 로그 파일에 가치가 있다는 것이 분명해졌습니다. 따라서 조직 내에 외부 데이터뿐만 아니라 새로운 데이터 소스를 호출 할 수있는 데이터가있었습니다. 그래서 한 가지입니다. 그리고 그것은 실제로 우리가 이전에 가지고 있었던 데이터 관리 규칙에 관계없이 어떤 방식 으로든 확장되어야하며 실제로 관리하기 위해 계속 확장되어야 함을 의미합니다. 데이터. 그러나 우리는 이제 어떤 방식 으로든 조립을 시작하고 있습니다.

이 목록을 내려 가면 스트리밍과 데이터 도착 속도가 있습니다. 하둡이 인기를 얻는 이유 중 하나는 많은 데이터를 포착하는 데 거의 사용될 수 있기 때문입니다. 또한 데이터 속도를 수집 할 수 있습니다. 실제로 즉시 사용할 필요가 없다면 훌륭한 병렬 병렬 환경입니다. 하지만 지금도 상당한 양의 스트리밍 분석이 진행되고 있습니다. 예전에는 스트리밍 애플리케이션에 관심이있는 금융 부문 이었지만 이제는 전 세계적으로 발전했습니다. 그리고 모든 사람은 데이터를 가치에서 이끌어 내고 조직에 대한 분석을 수행 할 수있는 잠재적 인 수단 인 스트리밍 애플리케이션을 어떤 식 으로든 다른 방식으로보고 있습니다.

구조화되지 않은 데이터가 있습니다. 통계는 일반적으로 세계 데이터의 10 % 만 관계형 데이터베이스에있었습니다. 그 주된 이유 중 하나는 대부분 실제로 구조화되어 있지 않았기 때문입니다. 웹에는 많은 양의 웹 사이트가 있었지만 다양한 웹 사이트에 거의 흩어져있었습니다. 이 데이터는 분석 가능하고 사용 가능한 것으로 입증되었습니다. 그리고 점차 상황에 들어간 시만텍 기술의 출현과 함께 점점 더 커지고 있습니다.따라서 비정형 데이터를 실제로 수집하고 관리해야 할 필요성이 있으며 이는 이전보다 훨씬 큰 데이터를 의미합니다. 이미 언급 한 소셜 데이터가 있지만 그에 대한 요점은 아마도 청소가 필요하다는 것입니다.

사물 인터넷 데이터가 있습니다. 그것은 다른 종류의 상황입니다. 그 정도가 많을 것 같지만 많은 곳은 그것이 운영되는 곳 근처에 분포되어 있어야합니다. 그러나 어떤 식 으로든 조직 내에서 데이터를 분석하기 위해이 방법을 원할 것입니다. 이것이 또 다른 요소입니다. 그리고 그 데이터는 아마도 JSON 또는 XML로 포맷되어 자체적으로 선언되기 때문에 다른 방식으로 구조화 될 것입니다. 그리고 우리가 실제로 데이터를 가져오고 해당 특정 데이터 조각에서 읽을 때 일종의 스키마를 수행 할 수 있다는 점만이 아닙니다.

우리는 출처의 문제를 가지고 있으며 이것은 분석 문제입니다. 데이터 출처를 모르는 경우가 아니라면 데이터 분석을 수행 한 결과가 실제로 승인을 받고 유효하다고 간주 할 수는 없습니다. 이는 데이터 과학자의 활동 측면에서 전문성에 불과합니다. 그러나 데이터 출처를 확보하기 위해서는 실제로 데이터를 관리하고 계보를 기록해야합니다.

우리는 컴퓨터의 성능과 병렬성에 관한 문제를 가지고 있으며 모든 것이 더 빨리 진행되도록하는 것입니다. 문제는 분명히 우리가 가지고있는 특정 프로세스가 다른 모든 프로세스에 비해 너무 느릴 수 있다는 것입니다. 따라서 속도 측면에서 불일치가있을 수 있습니다.

머신 러닝이 등장했습니다. 머신 러닝은 실제로 분석을 이전과 다른 게임으로 만드는 효과가 있습니다. 그러나 힘이있는 경우에만 실제로 사용할 수 있습니다.

새로운 분석 워크로드의 사실을 알게되었습니다. 우리는 병렬 세계를 가지고 있으며 효과를 극대화하려면 일부 분석 알고리즘을 병렬로 실행해야합니다. 따라서 실제로 문제는 실제로 어떤 식 으로든 데이터를 어떻게 전달하고 가능한 경우 데이터를 만드는지에 달려 있습니다. 데이터베이스 내에서 수행 할 수 있기 때문에 실제로 분석 워크로드를 실행하는 위치 따라서 분석 응용 프로그램 내에서 수행 할 수 있습니다.

따라서 일련의 거버넌스 문제가 있습니다. 우리가 올해 한 일 – 올해 우리가 한 연구는 실제로 빅 데이터 아키텍처에 관한 것입니다. 그리고 우리가 실제로 일반화하려고 할 때, 결론을 내 렸습니다. 우리가 생각 해낸 다이어그램은 이처럼 많이 보입니다.

특히 Mike가 분석을 위해 데이터 아키텍처에 대해 상당한 금액을하려고하므로 이에 대해서는 언급하지 않겠습니다. 그러나 실제로 사람들이 집중하는 것을 좋아하는 것은 데이터를 모으는 방식으로이 아래쪽 영역입니다. 데이터 리파이너리 또는 데이터 처리 허브라는 것이 있습니다. 그리고 그것이 거버넌스가 이루어지는 곳입니다. 우리가 초점을 맞추면 그렇게 보입니다. 내부 및 외부 소스의 데이터로 공급되고 있습니다. 이론적으로 허브는 생성되는 모든 데이터를 가져와야합니다. 분석 및 스트리밍 데이터를 수행해야하는 경우 스트리밍 될 때 스트리밍 및 스트리밍 된 후 허브로 전달되어야합니다. 그렇지 않으면 모든 것이 허브에 들어옵니다. 그리고 허브에서 일어나고있는 많은 것들이 있습니다. 그리고 허브에서 일정량의 분석 및 SQL을 진행할 수 없습니다. 그러나 데이터를 다른 영역으로 푸시하려면 각 셀에서 데이터 가상화가 필요합니다. 그러나 그 중 하나가 발생하기 전에 실제로 데이터 준비를 구체화해야합니다. 데이터 준비라고 부를 수 있습니다. 그것보다 훨씬 큽니다. 이것들은 내가 포함한다고 생각하는 것들입니다.

우리는 이것이 데이터 계층의 주요 부분이라는 시스템 관리 및 서비스 관리를 가지고 있으며, 실제로 우리는 전통적으로 거의 모든 운영 체제에 수행했던 운영 시스템 관리 노력을 관리하는 모든 시스템을 적용해야합니다. 그러나 정의 된 서비스 수준이나 모든 종류의 분석이 수행되어야하거나 BI 데이터가 정의되어 있기 때문에 이러한 다양한 서비스 수준이 충족되는지 확인하기 위해 진행중인 다른 사항을 모니터링해야합니다. 행동.

성능 모니터링 및 관리가 필요합니다. 다른 것이 있다면, 우리는 다양한 시점에 할당해야 할 추가 컴퓨터 리소스를 알기 위해 필요합니다. 그러나 실제로 많은 워크로드가 실제로는 상당히 복잡하고 리소스를 위해 서로 경쟁하고 있습니다. 그 분야에서해야 할 일이 상당히 정교합니다.

이제는 이전과는 다른 방식으로 데이터 수명주기를 확보했습니다. 여기서의 거래는 데이터를 수집하여 이전에 버리지 않은 다른 무엇보다 중요합니다. 우리는 필요한 데이터를 수집하고 보관 한 후 보관하는 경향이있었습니다. 그러나 여기서부터 우리가하게 될 많은 일은 데이터를 탐색하는 것입니다. 데이터를 원하지 않으면 묻어 버리십시오. 따라서 데이터 수명주기는 상황에 따라 다르지만 훨씬 더 많은 데이터 집계가 될 것입니다. 따라서 집계 소스가 무엇인지, 어디에서 집계 소스가 있는지 등을 알면 알 수 있습니다. 그게 다 필요합니다

데이터 계보는 자연스럽게 빌려줍니다. 그것 없이는, 당신은 문제를 알아야합니다. 그래서 데이터… 우리는 데이터가 유효하지만 실제로 얼마나 신뢰할 수 있는지 알아야합니다.

또한 많은 데이터가 실제로 어떤 방식 으로든 데이터 매핑이 될 것이기 때문에 데이터 매핑이 있습니다. 그리고 이것은 원한다면 MDM에서 어느 정도 관련이 있습니다. JSON에 의해 정의 된 많은 데이터를 얻거나 XML 스키마를 기반으로 읽었을 때 어떤 방식 으로든 매우 활동적이어야하기 때문에 지금은 훨씬 더 복잡합니다. 데이터 매핑 활동

MDM 이상의 메타 데이터 관리 상황이 있습니다. 어떤 방식 으로든 내가 지금 관심있는 모든 것의 일종의 메타 데이터웨어 하우스로 생각하고 싶은 것을 구축해야하기 때문입니다. 메타 데이터가 있습니다. 일부 데이터에는 반드시 메타 데이터가 선언되지 않아도되므로 즉시 사용하려고합니다. 그런 다음 데이터 정리가 있습니다. 이는 데이터를 처리 할 수있는 일련의 작업과 관련하여 큰 일입니다. 그리고 데이터 보안도 있습니다. 이 모든 데이터는 수용 가능한 수준으로 보호되어야하며, 이는 예를 들어 많은 값을 암호화하는 것과 같은 특정 경우를 의미 할 수도 있습니다.

따라서이 워크로드는 모두 거버넌스 제국입니다. 이 모든 것은 어떤 식 으로든 우리의 모든 분석 활동과 동시에 또는 전에 진행되어야합니다. 이것은 다수의 조정 된 응용 프로그램입니다. 그것은 그 자체의 시스템입니다. 그리고 여러 시점에서 그것을하지 않는 사람들은 앞으로 나아갈 때 부족하다는 고통을 겪게 될 것입니다. 왜냐하면이 많은 것들이 실제로 선택적인 것은 아니기 때문입니다. 엔트로피를 늘리지 않으면 엔트로피가 증가합니다.

따라서 데이터 분석 및 거버넌스 측면에서 실제로 한 손은 다른 손을 씻는 것입니다. 거버넌스가 없으면 분석 및 BI는 제 시간에 under 치지 않습니다. 그리고 분석과 BI가 없다면 어쨌든 데이터를 관리 할 필요가 없습니다. 두 가지가 실제로 함께 걸어갑니다. 그들이 중동에서 말하는 것처럼 "한 손은 다른 손을 씻습니다." 그리고 그것은 실제로 내가 말해야 할 전부입니다. 희망이있다. 이제 우리는 Mike를 되찾았다.

에릭 : 그렇습니다. 마이크, 당신이 거기에 있다고 가정합니다. 슬라이드를 위로 올리겠습니다.

마이크 : 그렇습니다. 좋아, 내 말 들려?

에릭 : 네, 들려요. 당신은 훌륭하게 들립니다. 자, 소개하겠습니다… 당신이갑니다. 그리고 당신은 이제 발표자입니다. 멀리 가져.

마이크 : 알겠습니다. 감사합니다. 좋은 아침, 좋은 오후, 여러분 모두에게 좋은 저녁입니다. 딸꾹질은 처음에 용서하십시오. 어떤 이유로, 나는 나 자신을 음소거했고 모든 사람을 볼 수 있지만 그들은 내 말을들을 수 없었습니다.

좋구나. 제가 빠르게하고 싶은 것은 빅 데이터 분석 생태계에 대해 이야기하는 것입니다. 궁금한 점이 있으면이 세션 또는 이후에 연락처 세부 사항을 알려주세요. 내가 말했듯이 영국의 한밤중에.

글쎄, 내가 말하고 싶은 것을 얻을 수 있습니다. 지난 몇 년간 우리는 비즈니스가 현재 분석하고자하는 모든 종류의 새로운 유형의 데이터 (클릭 스트림 데이터부터 온라인 행동 이해, Eric가 말한 소셜 미디어 데이터)의 출현을 보았습니다. 여기에서 프로그램의 시작. Robin은 JSON, BSON, XML을 언급 했으므로 자체 설명하는 반 구조화 된 데이터를 언급했습니다. 물론 우리는 비정형 데이터, IT 인프라 로그, 센서 데이터 등 모든 것을 갖추고 있습니다. 비즈니스가 관심을 갖고있는 비교적 새로운 데이터 소스는 모두 우리가 알고있는 것을 심화시킬 수있는 귀중한 통찰력을 포함하고 있기 때문입니다.

이는 기본적으로 분석 환경이 기존의 데이터웨어 하우징을 넘어 섰다는 것을 의미합니다. 우리는 여전히 구조화 된 데이터와 다중 구조화 된 데이터의 조합으로 데이터를 세계에 구성합니다. 여기서 다중 구조화 된 데이터는 많은 경우 기업 내부 또는 외부에서 올 수 있습니다. 이러한 새로운 데이터 유형과 새로운 분석 요구의 결과로, 우리는 새로운 데이터 분석 워크로드의 출현을 보았습니다. 모션 분석에서 모든 것이 기존 데이터웨어 하우징 아키텍처를 다소 변화 시켰습니다. 기존의 서클에서는 데이터를 통합, 정리, 변환, 저장 및 분석했습니다. 그러나 실제 데이터를 분석하기 위해 데이터를 캡처하고 통합하며 분석을 통해 준비한 다음 저장합니다. 데이터를 저장하기 전에 데이터에 대한 분석이 진행됩니다.

모델 개발, 통계 및 예측 모델 개발을위한 구조화 된 데이터의 복잡한 분석은 전통적인 데이터웨어 하우징 분야의 일부 사람들에게는 새로운 것이 아닙니다. 모델 데이터에 대한 탐색 적 분석이 있습니다. 이것이 구조화 된 데이터의 양입니다. 우리는 금융 서비스를받는 고객을 위해 사기와 같은 것들을 포함하는 그래프 분석 형식의 새로운 워크로드를 얻었습니다. 사이버 보안도 포함됩니다. 그것은 물론 소셜 네트워크를 포함합니다. 나는 심지어 관리에서 마스터했으며 몇 년 동안 그래프를 분석했습니다.

우리는 데이터웨어 하우스 최적화 또는 ETL 처리 오프로드를 얻었으며, 이는 IT 사용 사례에 더 가깝습니다. 또한 데이터 및 데이터웨어 하우스를 아카이빙하여 Hadoop과 같은 환경에서 온라인 상태로 유지할 수 있습니다. 따라서 이러한 새로운 분석 워크로드는 모두 새로운 플랫폼, 새로운 스토리지 플랫폼을 분석 환경에 추가했습니다. 따라서 기존의 데이터웨어 하우스, 데이터 마트를 보유한 것이 아니라 현재 Hadoop이 있습니다. 분석 워크로드에 자주 사용되는 그래프 데이터베이스와 같은 NoSQL 데이터베이스가 있습니다. 물론 지금은 Hadoop 자체와 NoSQL 그래프 DBMS에서 그래프 분석을 수행 할 수 있습니다. Robin이 언급 한 스트리밍 분석이 있습니다. 또한 원하는 경우 분석 데이터웨어 하우스 어플라이언스에 모델을 구축 할 수도 있습니다. 그러나이 모든 것이 분석 환경을 복잡하게 만들었으며 현재 여러 플랫폼이 필요합니다. 그리고 저는 프론트 오피스 나 백 오피스, 재무, 조달, HR 및 어떤 종류의 운영을하는 비즈니스에서 어떤 분석 프로젝트가 전통적인 데이터웨어 하우징 장면과 관련되어 있는지 파악하는 것이 어려울 것으로 생각합니다. 분석 프로젝트가 이러한 새로운 빅 데이터 플랫폼과 관련되어 있고 어디에서 실행되는지 알면 어떤 분석 워크로드도 파악할 수 있지만 비즈니스라는 의미에서 비즈니스를 놓치지 않을 수 있습니다. 이제 큰 프로젝트의 조합을 볼 수 있습니다. 고객 내부 또는 운영, 위험, 재무 또는 지속 가능성을 강화하기 위해 필요한 데이터 분석 프로젝트 및 기존의 빅 데이터웨어 하우징 프로젝트. 따라서 우리는 전략적 비즈니스 우선 순위에 맞춰 이러한 모든 것을 전략적 비즈니스 우선 순위에 맞추기를 원합니다. 비즈니스 성과를 개선하고 비용을 절감하기 위해 필요한 조치를 취해야합니다. 우리 회사 전체에 대한 위험 등을 줄이기 위해. 따라서 여기에서 하나가 다른 하나를 빅 데이터 및 기존 데이터로 대체하는 것은 아닙니다. 둘 다 함께 사용됩니다. 그리고 그것은 아키텍처를 극적으로 변화시킵니다.

제가 여기있는 것은 고객과 함께 사용할 비교적 새로운 아키텍처입니다. 이제 하단에서 알 수 있듯이 더 이상 구조화되지 않은 광범위한 데이터 소스가 있습니다. 그중 일부는 시장 데이터와 같은 센서와 같은 라이브 데이터를 스트리밍하는 것입니다. 실시간 클릭 스트림 데이터 일 수도 있습니다. 라이브 비디오 스트리밍 데이터 일 수 있습니다. 따라서 구조화 할 필요가 없었습니다. 따라서 실시간으로 자동 작업을 수행하기 위해 해당 데이터에 대한 스트림 처리를 수행 할 수 있으며 관심있는 모든 데이터를 필터링하여 분석 데이터 저장소를 채우는 데 사용할 수있는 엔터프라이즈 정보 관리 도구로 전달할 수 있습니다. 여기에서 혼합 된 내용을 볼 수 없다면 기존의 데이터웨어 하우징, Hadoop 및 NoSQL 데이터베이스가 있습니다. 우리는 혼합 된 마스터 데이터 관리 기능도 갖추고 있습니다. 또한 이러한 데이터 저장소를 채우는 것뿐만 아니라 데이터를 이동해야하는 전체 데이터 관리 도구 제품군에 더 많은 압력을가합니다.

또한 액세스 도구를 단순화해야합니다. 우리는 단지 사용자에게 의지하여 "모든 데이터 저장소를 확보하고 API를 보유하십시오"라고 말할 수는 없습니다. 해야 할 일은 액세스를 단순화하는 것입니다. 따라서 점선으로 표시되는 데이터 가상화 및 최적화는 여러 데이터 스토리지의 복잡성을 숨기고 있으며 최종 사용자가이 데이터에 더 쉽게 액세스 할 수 있도록 노력하고 있습니다. 물론 데이터웨어 하우징에서 시작된 기존 BI 도구부터 차트의 왼쪽으로 점차 이동하여 Hadoops에 연결하는 것에 이르기까지 다양한 도구가 맨 위에 있습니다. 그리고 세계의 NoSQL 데이터베이스.

특히 Hadoop에 저장되는 신체 구조의 비 구조적 데이터를 중심으로 새로운 삶의 임대가 이루어지고 있습니다. 예를 들어 MapReduce와 함께 Hadoop 플랫폼에서 수행되는 맞춤형 분석 애플리케이션이 있으므로 Spark 프레임 워크가 있습니다. 아시다시피, 매우 구체적인 워크로드에 집중할 수있는 그래프 분석 도구가 있습니다. 따라서 다양한 도구와 데이터 흐름도 더 복잡합니다. 더 이상 데이터웨어 하우스의 일방 통행 거리가 아닙니다. 물론 이제는 마스터 데이터입니다.

우리는 NoSQL에서 캡처되는 새로운 데이터 소스를 얻었습니다. HBase와 같은 Cassandra와 같은 MongoDB와 같은 데이터 저장소가 있습니다. 분석 및 데이터 준비를 위해 데이터를 Hadoop으로 직접 가져 왔습니다. Hadoop과 데이터웨어 하우스에서 새로운 통찰력을 얻었습니다. 데이터웨어 하우스에서 하둡으로 아카이브를 가져 왔습니다. 이제 모든 NoSQL 데이터베이스 및 데이터 마트에도 데이터 피드가 제공됩니다. 여기에서 볼 수있는 것은 데이터 관리에 더 많은 활동이 진행되고 있다는 것입니다. 이는 데이터 관리 소프트웨어가 상당한 압박을 받고 있음을 의미합니다. 더 이상 일방 통행 거리가 아닙니다. 양방향 데이터 이동입니다. 훨씬 더 많은 활동이 진행되고 있으므로 데이터 소스뿐만 아니라 데이터 관리 도구 측면에서도 확장 성이 중요합니다.

이 차트는 내가 전에 언급 한 아키텍처로 돌아갑니다. 이 아키텍처의 다른 부분에서 실행되는 다양한 분석 워크로드를 보여줍니다. 왼쪽 하단에는 실시간 스트리밍, 모든 종류의 라이브 데이터 저장소에서 나오는 데이터에 대한 스트림 처리가 있습니다. NoSQL 그래프 데이터베이스에서 클래스 분석이 이루어졌습니다. 하둡에서도 발생할 수 있습니다. 예를 들어 Spark 프레임 워크와 GraphX를 사용하면 Robin이 Hadoop에서 발생하는 것에 대한 조사 분석과 데이터 정제소를 얻을 수 있습니다. 우리는 전통적인 워크로드가 여전히 진행 중이며 데이터웨어 하우징을 사용하고 있습니다. 데이터 사용자는 아마도 데이터웨어 하우스 어플라이언스에서 통계 및 예측 모델을 구축 할 수 있습니다. 또한 최종 사용자가 쉽게 사용할 수 있도록이 모든 것에 대한 액세스를 단순화하려고 노력하고 있습니다.

따라서이 전체 설정에 대한 성공은 단순한 분석적 측면 이상의 것입니다. 아시다시피, 분석 플랫폼을 제자리에 배치 할 수 있지만, 규모가 큰 고속 및 대용량 데이터를 캡처 및 수집 할 수없는 경우에는 그다지 중요하지 않습니다. 아시다시피, 분석 할 것이 없습니다. 따라서 빅 데이터 분석의 성공을 위해서는 운영 체제를 확장해야합니다. 이는 새로운 거래를 지원할 수 있다는 것이 최고라는 것을 의미합니다. 여기에 캡처 된 비 트랜잭션 데이터는 센서 또는 수집과 같은 고속 데이터에 대한 새로운 도착률이 매우 높을 수 있음을 알고 있습니다. 이러한 모든 종류의 데이터를 캡처하고 분석을 위해 가져올 수 있도록 모든 것을 충족시킬 수 있어야합니다. 또한 분석 자체를 확장하고 이미 언급 한 데이터에 대한 액세스를 단순화해야합니다. 그런 다음 연결하십시오. 우리는 폐쇄 형 루프를 제공하기 위해 이러한 운영 체제로 다시 조정할 수 있어야합니다.

따라서 집의 운영 측면을 확장하여 데이터를 캡처하는 것은 NoSQL 데이터베이스의 세계에 적용됩니다. 여기에 NoSQL 데이터베이스의 5 가지 범주가 있습니다. 이 카테고리는 위의 다른 4 가지 조합으로 모델링됩니다. 일반적으로 키 값, 저장된 문서 및 열 패밀리 데이터베이스 (처음 세 개가 있음)는 더 많은 종류의 트랜잭션 및 비 트랜잭션 데이터에 사용됩니다.

해당 데이터베이스 중 일부는 속성으로 지원됩니다. 그들 중 일부는 그렇지 않습니다. 그럼에도 불구하고, 우리는 그러한 종류의 응용 프로그램을 확장하기 위해 그것들을 소개하고 있습니다. 예를 들어, 직원들이 키보드를 통해 거래를 시작하는 고객에서 이제는 고객과 대중에게 새로운 장치를 사용하여 거래 할 수있게되었습니다. 우리는 기업에 들어오는 거래 수가 엄청나게 증가했습니다. 따라서이를 위해 트랜잭션 응용 프로그램을 확장해야합니다.

일반적으로 NuSQL 및 VoltDB와 같은 관계형 데이터베이스로 NewSQL 데이터베이스에서 수행 할 수 있습니다. 또는 트랜잭션 처리를 보장 할 수있는 ACID 속성을 지원하는 일부 NoSQL 데이터베이스가 작동 중일 수 있습니다. 이것은 거래 전에 쇼핑 카트 데이터와 같은 비 트랜잭션 데이터에도 적용됩니다. 사람들은 물건을 사기 전에 센서 데이터를 알고 있습니다. 수억 개의 센서 판독 값 중 센서 판독 값을 잃어 버립니다. 별거 아니야. 클릭 스트림 세계에서 발생하는 클릭 수 – 클릭을 사용하면 별 문제가 없습니다.따라서 ACID 속성을 반드시 가질 필요는 없으며, NoSQL 데이터베이스가 등장하는 경우가 많았습니다. 이러한 새로운 종류의 데이터를 캡처하기 위해 대규모로 적절한 처리를 수행 할 수 있습니다.

동시에 분석을 확장하고자합니다. 따라서 데이터 저장소에서 분석 플랫폼으로 데이터를 가져 오는 것이 데이터가 너무 커서 더 이상 해킹하지 않습니다. 실제로 원하는 것은 분석을 다른 방법으로 엔터프라이즈 데이터웨어 하우스에서 하둡으로, 스트림 처리로 푸시하여 분석을 데이터로 푸시하는 것입니다. 그러나 누군가가 데이터베이스 분석 또는 하둡 분석에 있다고해서 반드시 분석이 병렬로 실행되는 것은 아닙니다. 솔직히 말해서 데이터웨어 하우스 어플라이언스와 같은 하둡과 같은 새로운 대규모 병렬 확장 가능 기술에 투자하고 클러스터 된 스트림 처리 엔진과 같은 기능에 투자하려면 분석을 병렬로 실행해야합니다.

그래서 그것은 단지 체크 아웃입니다. 고객, 운영, 위험 등을 예측할 수있는 분석 기능이 있다면 플랫폼에서만 실행되는 것이 아니라 동시에 실행되기를 바랍니다. 우리 둘 다 원해 이는 기술이 SAS와 같은 새로운 시각적 검색 도구와 유사하기 때문입니다. 실제로 저희 스폰서 중 하나입니다.

사람들이 원하는 것은 최소한 하둡과 데이터베이스 분석을 이용하는 것입니다. 그리고 우리는 그러한 높은 데이터 볼륨에 필요한 성능을 제공하기 위해 이들을 병렬로 실행하기를 원합니다. 동시에, 우리는이 모든 것에 대한 액세스를 단순화하려고 노력하고 있습니다. 이제 SQL이 다시 의제로 돌아 왔습니다. 아시다시피, SQL은 — Hadoop의 SQL은 지금 매우 뜨겁습니다. 지금은 19 개의 SQL 및 Hadoop 이니셔티브에서 추적하고 있습니다. 또한 Hadoop 자체의 SQL에 직접 액세스하여 SQL을 검색 색인으로 이동할 수 있도록 여러 가지 방법으로이 데이터를 얻을 수 있습니다. 해당 공간의 일부 검색 공급 업체와 같은 방식으로 Excel 테이블을 Hadoop에 포함하는 분석 관계형 데이터베이스에 SQL로 액세스 할 수 있습니다.

이제 Hadoop의 데이터웨어 하우스에 연결할 수있는 데이터 가상화 서버에 대한 SQL 액세스 권한을 가질 수 있습니다. 라이브 스트리밍 데이터에 대한 SQL 액세스가 등장하기 시작했습니다. 따라서이 모든 것에 대한 SQL 액세스가 빠르게 증가하고 있습니다. 그리고 도전 중 하나는 SQL 액세스가 시장에 나와 있기 때문입니다. 문제는 SQL이 복잡한 데이터를 처리 할 수 있습니까? 그리고 그것은 반드시 간단한 것은 아닙니다. 여기에는 JSON 데이터가 중첩 될 수 있다는 사실을 포함하여 모든 종류의 합병증이 있습니다. 스키마 변형 레코드를 가질 수 있습니다. 따라서 첫 번째 레코드에는 하나의 스키마가 있습니다. 두 번째 레코드에는 다른 스키마가 있습니다. 이러한 것들은 관계 세계에서 일어나는 것과는 매우 다릅니다.

따라서 우리는 어떤 종류의 데이터를 분석하려고하는지, 그리고 어떤 분석적 특성에 대해 질문해야합니다. 당신이 알고 싶은 패널입니까? 기계 학습입니까? 그래프 분석입니까? SQL에서 할 수 있습니까? 알다시피, 그것은 SQL에서 불가피합니까? 동시 사용자 수는 몇 명입니까? 수백 명의 동시 사용자가 있습니다. 복잡한 데이터에서도 가능합니까? 아시다시피,이 모든 것이 핵심 질문입니다. 그래서 저는 여러분이 고려해야 할 몇 가지 목록을 만들었습니다. 어떤 종류의 파일 형식입니까? 우리는 어떤 종류의 데이터에 대해 이야기하고 있습니까? 복잡한 데이터를 얻기 위해 SQL에서 어떤 종류의 분석 함수를 호출 할 수 있습니까? 그리고 기능의 종류는 병렬로 실행됩니다. 우리가 이것을 확장 할 수 있다면 그것들은 병렬로 실행되어야한다는 것을 의미합니다. 오늘 밖에서 하둡의 데이터에 참여할 수 있습니까? 그리고 이러한 모든 종류의 쿼리 워크로드로 무엇을해야합니까?

앞에서 살펴본 바와 같이 SQL과 Hadoop 배포판에는 많은 차이점이 있습니다. 이것들은 내가 추적하고있는 것들입니다. 그건 그렇고, 그것은 Hadoop의 순수한 SQL입니다. 현재로서는 데이터 가상화가 포함되어 있지 않습니다. 그리고 그 안에 많은 것들과 강화의 여지가 많이 있습니다. 저는 내년, 18 개월 정도에 걸쳐 일어날 것이라고 생각합니다. 그러나 그것은 또 다른 것을 열어줍니다. 즉, Hadoop의 동일한 데이터에 여러 개의 SQL 엔진을 가질 수 있습니다. 그리고 그것은 당신이 관계에서 할 수 없었던 것입니다.

물론, 어떤 종류의 쿼리 워크로드를 실행하고 있는지 알아야합니다. Hadoop 이니셔티브의 특정 SQL에서 일괄 적으로 실행해야합니까? Hadoop 이니셔티브 등의 다른 SQL을 통해 대화식 쿼리 워크로드를 실행하여 어느 것을 연결해야하는지 알아야합니까? 물론 이상적으로는 그렇게하지 않아야합니다. 우리는 그것에 대해 질문을해야합니다. 일부 최적화 프로그램이이를 수행하는 가장 좋은 방법을 찾아냅니다. 그러나 우리는 아직 완전히 여기에 있지 않습니다.

그럼에도 불구하고 데이터 가상화는 앞서 여러 데이터 저장소에 대한 액세스를 단순화하는 데 매우 중요한 역할을합니다. 또한 하둡에 대한 새로운 통찰력을 창출하는 경우 데이터를 하둡에서 기존 데이터웨어 하우스로 이동하지 않고도 데이터 가상화를 통해 해당 데이터 대 데이터 및 기존 데이터웨어 하우스에 합류 할 수 있습니다. 물론 그렇게 할 수도 있습니다. 기존 데이터웨어 하우스에서 Hadoop으로 데이터를 아카이브하면 그럴듯합니다. 여전히 데이터를 가져 와서 데이터웨어 하우스에있는 데이터 가상화에 적용 할 수 있습니다. 따라서 저는이 전체 아키텍처에서 데이터 가상화가 큰 미래를 가져 왔으며 이러한 모든 데이터 저장소에 대한 액세스를 단순화했다고 생각합니다.

또한 관계형이든 NoSQL 시스템이든 관계없이 이러한 새로운 통찰력을 창출 할 때에도 이러한 통찰력을 다시 운영으로 유도하여 찾은 것의 가치를 극대화하여 찾은 가치를 극대화 할 수 있습니다. 해당 환경에서보다 효과적이고시기 적절한 의사 결정을 수행하여 비즈니스를 최적화하십시오.

결론적으로, 제가보고있는 것은 새로운 데이터 소스가 필요하다는 것입니다. 원하는 경우 더 복잡한 아키텍처를 다루는 새로운 플랫폼이 있습니다. 하둡은 액체 샌드 박스를위한 데이터 준비, 아카이브 쿼리, 데이터웨어 하우스의 아카이브, 데이터웨어 하우징을 넘어 데이터 플랫폼을 넘어 모든 플랫폼의 데이터 관리 및 새로운 도구로 활용하기에 충분하고 매우 중요해졌습니다. 이러한 환경에서 데이터를 분석 및 액세스하고, 데이터를보다 효과적으로 수집 할 수있는 확장 가능한 기술을 보유하고, 데이터를 플랫폼으로 푸시하여 분석을 확장하여 데이터를보다 병렬로 만들 수 있습니다. 그런 다음 맨 위에 나오는 긴급 SQL을 통해 모든 것에 대한 액세스를 단순화하기를 바랍니다. 따라서 우리가 어디로 향하고 있는지에 대한 아이디어를 제공합니다. 그래서 그걸로 다시 돌아가겠습니다. 에릭, 지금입니까?

에릭 : 좋아요, 정말 좋습니다. 그리고 여러분이 방금 로빈과 마이크에서 얻은 것들 사이에서 사람들은 어디에서나 찾을 때 전체 풍경을 종합적으로 간결하게 볼 수있을 것입니다. 먼저 George Corugedo를 대기열에 넣겠습니다. 그리고 거기에 있습니다. 이걸 잠시만 보자. 알았어, 조지, 열쇠를 건네 주려고 했어 바닥은 당신입니다.

조지 : 좋아요! 고마워, 에릭 고마워, 로브와 마이크 그것은 우리가 합의한 훌륭한 정보와 많은 것들이었습니다. 따라서 로빈의 논의로 돌아 가면, RedPoint가 여기에 있고 SAS가 여기에 있다는 것은 우연의 일치가 아니기 때문입니다. RedPoint는 데이터 거버넌스, 데이터 처리 및 분석에 사용할 준비에 중점을두고 데이터 측면에 중점을 둡니다. 자,이 두 슬라이드를 살펴 보도록하겠습니다. 그리고 MDM에 대한 Robin의 요점과 MDM의 중요성과 그 유용성, 그리고 Hadoop이 MDM 및 데이터 품질의 세계에 있다고 생각합니다.

Robin은이 점이 엔터프라이즈 데이터웨어 하우스 세계와 어떤 관련이 있는지에 대해 조금 이야기하고 있습니다. 저는 Accenture에서 여러 해를 보냈습니다. 그리고 흥미로운 점은 몇 번이나 회사에 들어가서 기본적으로 버려진 데이터웨어 하우스로 무엇을해야하는지 알아 내야한다는 것입니다. 그리고 데이터웨어 하우스 팀이 실제로 빌드를 비즈니스 사용자 나 데이터 소비자에게 맞추지 않았기 때문에 많은 일이 일어났습니다. 또는 그들이 물건을 만들 때까지, 비즈니스 용도 또는 비즈니스 이론적 근거가 발전하기까지 너무 오래 걸렸습니다.

제가 생각하는 것 중 하나는, 마스터 데이터 관리, 데이터 품질 및 데이터 준비를 위해 Hadoop을 사용한다는 아이디어는 항상 원자 데이터로 되돌아 갈 수 있다는 사실입니다. Hadoop 데이터 레이크 또는 데이터 저장소, 데이터 저장소 또는 허브 또는 사용하려는 버즈 형식에 관계없이 그러나 항상 원자 데이터를 유지하므로 항상 비즈니스 사용자와 재조정 할 수있는 기회가 있습니다. 실제로 통계 학자로서 경력을 쌓기 시작한 분석가로서 엔터프라이즈 데이터웨어 하우스는 보고서를 작성하는 데 매우 좋지만 실제로 예측 분석을 원한다면 분석가로서 실제로 원하는 것은 데이터웨어 하우스에서 요약되고 집계 된 세분화 된 동작 데이터이기 때문에 실제로는 유용하지 않습니다. 그래서 저는 이것이 정말로 중요한 기능이라고 생각합니다. 그리고 제가 Robin과 동의하지 않을 것이라고 생각하는 것 중 하나는 개인적으로 가능한 한 오랫동안 데이터 레이크 또는 데이터 허브에 데이터를 남겨 두는 것입니다. 데이터가 있고 깨끗합니다. 한 방향에서 다른 방향으로 볼 수 있습니다. 다른 데이터와 병합 할 수 있습니다. 당신은 항상 그 기회로 돌아와서 구조를 변경 한 다음, 사업부와이 부서가 가질 수있는 필요에 맞게 자신을 재정렬 할 수 있습니다.

이것에 대한 또 다른 흥미로운 점 중 하나는 강력한 컴퓨팅 플랫폼이기 때문에 우리가 이야기했던 많은 작업 부하이기 때문에 Hadoop으로 곧바로 들어오는 것을 볼 수 있습니다. 그리고 Mike는이 유형의 빅 데이터 생태계에서 세상에 존재하는 모든 다른 기술에 대해 이야기하고 있었지만 Hadoop은 실제로 컴퓨팅 집약적 인 처리에서 대규모를 수행하는 주역이라고 생각합니다. 마스터 데이터 및 데이터 품질이 필요합니다. 거기에서 할 수 있다면 고가의 데이터베이스에서 경제적 인 데이터베이스로 데이터를 이동하는 경제학 만이 실제로 대기업에서 실제로 많은 부분을 차지하고 있기 때문입니다.

물론, 몇 가지 도전이 있습니다. 기술과 관련하여 문제가 있습니다. 그들 중 많은 사람들이 매우 미숙합니다. 마이크가 언급 한 기술이 몇 개나되는지 모르겠지만 아직 제로 포인트 릴리스에 관한 많은 기술이 있습니다. 따라서 이러한 기술은 매우 젊고 미성숙하며 여전히 코드 기반입니다. 그리고 그것은 실제로 기업에게 도전을 만듭니다. 그리고 우리는 기업 수준의 문제 해결에 중점을 둡니다. 그래서 우리는 다른 방법이 있어야한다고 생각합니다. 이것이 우리가 제안하는 것은 매우 초기 기술을 사용하는 데있어 다른 것들에 대해 다른 방식으로 진행하는 것입니다.

그리고 여기에 언급 된 또 다른 흥미로운 문제는 어떤 유형의 Hadoop 환경에서 캡처중인 데이터를 가지고있을 때 쓰기에 대한 스키마가 아니라 읽기에 대한 스키마라는 것입니다. 일부 예외가 있습니다. 그리고 그 독서, 많은 것은 통계 학자에 의해 이루어지고 있습니다. 따라서 통계 전문가는 분석 목적을 위해 데이터를 올바르게 구성 할 수있는 도구를 가져야합니다. 하루가 끝나면 데이터를 유용하게 사용하려면 일부 형식으로 구성하여 질문을 받거나 질문에 대답하거나 비즈니스, 어떤 유형의 비즈니스는 비즈니스 가치를 창출합니다.

따라서 우리는 매우 광범위하고 성숙한 EPL, ELT 데이터 품질 마스터 키 및 관리 응용 프로그램을 보유하고 있습니다. 수년 동안 시장에있었습니다. 그리고 로빈이 원형 그래프에 기록한 모든 기능 또는 기능을 모두 갖추고 있습니다. 순수한 원시 데이터를 다양한 형식으로 캡처하는 것에서부터 XML 구조 및 그 밖의 것까지, 모든 정리 작업을 수행하는 능력, 데이터의 완성, 데이터의 정정, 데이터의 지리 공간 코어 비트. 요즘 사물 인터넷 (Internet of Things)에서 점점 더 중요 해지고 있습니다. 우리가하는 일이나 그 데이터의 많은 부분과 관련된 지리가 있습니다. 따라서 모든 파싱, 토큰 화, 정리, 수정, 서식, 구조화 등은 모두 플랫폼에서 수행됩니다.

그리고 아마도 가장 중요한 것은 중복 제거의 아이디어라고 생각합니다. 마스터 데이터 관리의 정의를 살펴보면 그 핵심은 중복 제거입니다. 다양한 데이터 소스에서 엔터티를 식별 한 다음 해당 엔터티에 대한 마스터 레코드를 만들 수 있습니다. 그리고 그 실체는 사람이 될 수 있습니다. 예를 들어 실체는 비행기의 일부일 수 있습니다. 헬스 클럽 고객 중 하나를 위해 우리가 한 것처럼 엔티티가 될 수 있습니다. 우리는 그들을위한 마스터 푸드 데이터베이스를 만들었습니다. 따라서, 우리가 함께 일하고있는 실체가 무엇이든, 그리고 점점 더, 사회적 핸들이나 계정과 같은 것들, 사람들과 관련된 장치, 자동차와 같은 것들과 같은 정체성에 대한 사람과 프록시가 점점 더 많아지고 있습니다. 전화 및 기타 상상할 수 있습니다.

우리는 모든 종류의 센서를 운동복에 넣는 고객과 협력하고 있습니다. 따라서 데이터는 모든 방향에서 나옵니다. 어떤 식 으로든 그것은 핵심 실체를 반영하거나 표현한 것입니다. 그리고 점점 더 많은 사람들이 이러한 모든 데이터 소스 간의 관계를 식별하고 해당 핵심 엔터티와의 관계를 파악한 다음 시간이 지남에 따라 해당 핵심 엔터티를 추적하여 해당 엔터티 간 변경 사항을 분석하고 이해할 수 있습니다. 예를 들어 사람들의 장기적 및 종단 적 분석에 매우 중요한 해당 엔티티의 표현에있는 다른 모든 요소. 빅 데이터가 사람들을 더 잘 이해하고 장기적으로 이해하고 사람들이 어떤 장치 등을 통해 행동 할 때의 행동과 행동을 이해한다는 사실은 실제로 중요한 이점 중 하나입니다. .

자, 여기서 빨리 넘어가겠습니다. 에릭은 YARN을 언급했습니다. YARN 동안 사람들이 YARN에 대해 이야기하기 때문에, 나는 이것을 조금 잠깐 동안 던졌습니다. YARN에 대해서는 여전히 많은 무지가 있다고 생각합니다. YARN에 대한 많은 오해가 여전히 있습니다. 실제로 애플리케이션이 올바른 방식으로 설계되고 애플리케이션 아키텍처에 적절한 레벨 또는 병렬화가있는 경우 YARN을 활용하여 Hadoop을 스케일링 플랫폼으로 사용할 수 있습니다. 그것이 바로 우리가 한 일입니다.

YARN에 대한 일부 정의를 지적하기 만하면됩니다. 우리에게있어 YARN은 우리 자신과 다른 조직이 MapReduce와 Spark의 동료가 될 수있게 해주었습니다. 그러나 사실 우리의 응용 프로그램은 최적화 된 코드를 YARN으로 직접 Hadoop으로 구동합니다. Mike는 분석과 분석에 대한 질문이 클러스터에 있기 때문에 실제로 병렬로 실행되고 있기 때문에 Mike가 언급 한 흥미로운 의견이 있습니다. 많은 데이터 품질 도구에 대해 동일한 질문을 할 수 있습니다.

대부분의 경우, 품질 도구는 데이터를 가져와야하거나 코드를 입력해야합니다. 대부분의 경우, 처리해야하는 방식으로 처리되는 단일 데이터 스트림입니다. 때로는 데이터 품질 유형의 활동에서 레코드를 비교합니다. 사실 우리는 YARN을 사용하기 때문에 병렬화를 실제로 활용할 수있었습니다.

또한 기존 데이터베이스, 새 데이터베이스 등을 확장 할 수있는 중요성에 대해 또 다른 의견을 제시하기 때문에 간단한 개요를 제공하기 위해 구현하거나 클러스터 외부에 설치합니다. 바이너리를 리소스 관리자 인 YARN으로 직접 푸시합니다. 그런 다음 YARN은 클러스터의 노드에이를 배포합니다. YARN은 YARN이 데이터를 관리하고 작업을 수행 할 수 있도록하는 것입니다. 즉, 데이터의 위치를 파악하고 작업을 데이터, 코드 및 데이터로 이동하고 데이터를 이동하지 않아야합니다. 데이터 품질 도구를 듣고 모범 사례를 말하면 데이터를 Hadoop에서 옮기고 평생 실행하는 것이 좋습니다. 작업을 데이터로 가져 가려고합니다. YARN이 먼저하는 일입니다. 바이너리를 데이터가있는 노드로 가져옵니다.

또한 클러스터 외부에 있기 때문에 모든 기존 및 관계형 데이터베이스에 액세스 할 수 있으므로 기존 데이터베이스에서 100 % 클라이언트 서버, 100 % Hadoop 또는 Hadoop 클라이언트 서버를 가로 지르는 하이브리드 작업을 수행 할 수 있습니다. , Oracle, Teradata — 하나의 구현으로 세계의 양쪽에 액세스 할 수 있기 때문에 원하는 모든 작업을 동일하게 수행 할 수 있습니다.

그런 다음 도구의 초기 상태에 대한 전체 아이디어로 돌아가서 여기에서 알 수 있습니다. 이것은 단순한 표현 일뿐입니다. 우리가하려는 것은 세상을 단순화하는 것입니다. 우리가하는 방식은 HDFS를 중심으로 매우 광범위한 기능을 제공하여이를 실현하는 것입니다. 우리가 혁신적인 기술을 모두 제거하려고했기 때문이 아닙니다. 기업은 안정성이 필요하며 코드 기반 솔루션을 좋아하지 않습니다. 따라서 우리가하려는 일은 기업에게 매우 예측 가능한 방식으로 데이터를 작성하고 처리 할 수있는 친숙하고 반복 가능하며 일관된 응용 프로그램 환경을 제공하는 것입니다.

곧 이것은 응용 프로그램에 미치는 영향입니다. RedPoint에는 코드 줄이없는 MapReduce vs. Pig vs. RedPoint가 표시됩니다. MapReduce에서 6 시간 개발, Pig에서 3 시간 개발, RedPoint에서 15 분 개발. 그리고 그것이 우리에게 큰 영향을 미치는 곳입니다. 처리 시간도 빠르지 만 인력 시간, 인력 생산성 시간이 크게 증가합니다.

마지막 슬라이드는 데이터 레이크 나 데이터 허브 또는 데이터 정제소를 중앙 집중식 수집 지점으로 사용하기 때문에이 아이디어로 돌아가고 싶습니다. 그 아이디어에 더 동의하지 못했습니다. 우리는 현재 주요 글로벌 은행의 최고 데이터 책임자 (CIO)와 논의 중이며 이것이 선택한 아키텍처입니다.모든 소스에서 데이터를 수집하면 데이터 레이크 내에서 데이터 품질 처리 및 마스터 데이터 관리를 수행 한 다음 응용 프로그램을 지원해야하는 곳으로 데이터를 푸시하고 BI를 지원할 수 있습니다. 그런 다음 BI에 분석 기능이 있으면 데이터 레이크 내에서 직접 실행할 수 있으며, 더 나은 곳에서는 바로 시작할 수 있습니다. 그러나이 아이디어는 매우 중요합니다. 여기이 토폴로지는 우리가 찾고있는 시장에서 많은 관심을 끌고 있습니다. 그리고 그게 다야.

에릭 : 좋아. 바로 여기로 이동합시다. 계속해서 Keith에게 넘겨 줄 게요. 그리고 키이스, 여기 집을 흔드는 데 약 10, 12 분이 걸렸습니다. 우리는이 쇼에서 조금 오래 걸렸습니다. 그리고 우리는 이것에 대해 70 분을 광고했습니다. 따라서 해당 슬라이드의 아무 곳이나 클릭하고 아래쪽 화살표를 사용하여 제거하십시오.

키이스 : 물론입니다. 문제 없어, 에릭 감사합니다. 계속해서 SAS에 대해 몇 가지만 살펴본 다음 SAS가 빅 데이터 세계와 교차하는 기술 아키텍처로 넘어가겠습니다. 이 모든 것들에 대해 설명해야 할 것이 많이 있습니다. SAS가 분석, 데이터 관리 및 비즈니스 인텔리전스 기술을이 빅 데이터 세계로 가져간 위치를 간단히 이해하면 몇 시간 동안 자세히 설명 할 수 있지만 10 분이 소요될 수 있습니다.

먼저, SAS에 대해 조금 살펴보십시오. 이 조직에 익숙하지 않다면 지난 38 년 동안 빅 데이터뿐만 아니라 지난 38 년 동안 소량의 데이터와 데이터로 고급 분석, 비즈니스 인텔리전스 및 데이터 관리를 해왔습니다. 우리는 전세계의 약 75,000 개 사이트에 거대한 기존 고객층이 있으며, 그 중 일부 최상위 조직과 협력하고 있습니다. 우리는 약 13,000 명의 직원과 30 억 달러의 수익을 가진 개인 조직입니다. 정말 중요한 부분은 전통적으로 우리가 전통적으로 R & D 조직에 상당량의 수익을 재투자 한 오랜 역사를 가지고 있다는 것입니다. 오늘 보러 갈거야.

저는이 무서운 아키텍처 다이어그램으로 바로 넘어가겠습니다. 슬라이드에서 왼쪽에서 오른쪽으로 작업합니다. 이 플랫폼 내부에 익숙한 것들이 있습니다. 왼쪽에서, 우리가 이야기하는 모든 데이터 소스는 이러한 빅 데이터 플랫폼으로의 수집에 대해 이야기하고 있습니다. 그런 다음이 빅 데이터 플랫폼이 있습니다.

하둡이라는 단어를 맨 위에 두지 않았습니다. 궁극적으로 오늘 제가 제시 할 예제는 특히 이러한 빅 데이터 플랫폼과 교차하는 모든 기술에 관한 것이기 때문입니다. 하둡은 가장 강력한 구축 옵션 중 하나 일 뿐이지 만, Teradata와 같은 다른 엔터프라이즈 데이터웨어 하우스 파트너와 일정 기간 동안 많은 기술을 개발하고 있습니다. Oracle, Pivotal 등 따라서 모든 플랫폼에서 지원되는 모든 다른 기술에 대해 자세히 설명 할 수는 없지만, 오늘 설명하는 모든 기술은 대부분 하둡과 그 기술의 많은 부분이 다른 기술 파트너와 교차한다는 점에 유의하십시오. 우리는. 그래서 우리는 그 플랫폼이 그 자리에 앉았습니다.

다음은 오른쪽에 SAS LASR Analytic Server가 있습니다. 이제는 본질적으로 메모리 분석 응용 프로그램 서버와 매우 유사합니다. 인 메모리 데이터베이스가 아닌 것이 분명합니다. 실제로 처음부터 설계되었습니다. 쿼리 엔진은 아니지만 분석 요청을 대규모로 대규모 병렬 방식으로 서비스하도록 설계되었습니다. 이것이 바로 오른쪽에있는 서비스 키 응용 프로그램입니다.

우리는 사람들이 어떻게 이런 것들을 배포하는지에 대해 조금 더 알게 될 것입니다. 그러나 본질적으로 응용 프로그램 (첫 번째 응용 프로그램)은 SAS 고성능 분석입니다. Enterprise Miner 또는 SAS와 같은 많은 기존 기술과 플랫폼을 사용하고 있으며, 우리가 수행 한 도구에 내장 된 알고리즘 중 일부를 사용하여 멀티 스레딩을 수행하는 것이 아닙니다. 몇 년 동안, 그러나 그것들과도 비슷한 수준입니다. 따라서 빅 데이터 플랫폼에서 LASR Analytic 서버로의 메모리 공간으로 데이터를 이동하여 분석 알고리즘을 실행할 수 있습니다. 많은 새로운 기계 학습, 신경망, 임의의 포리스트 회귀, 이러한 종류의 다시 말하지만, 데이터는 메모리에 앉아 있습니다. 따라서 해당 플랫폼에 제출되는 특정 MapReduce 패러다임 병목 현상을 제거하면 분석 작업을 수행하려는 방식이 아닙니다. 따라서 데이터를 한 번 메모리 공간으로 들어 올려서 수천 번 반복 할 수 있기를 원합니다. 이것이 바로 고성능 Analytic LASR 서버를 사용하는 개념입니다.

또한 그 아래에있는 다른 응용 프로그램 인 시각적 분석 기능을 통해 해당 데이터를 메모리에 유지하고 동일한 데이터에서 더 많은 인구를 지원할 수 있습니다. 따라서 사람들이 빅 데이터 탐색을 수행 할 수 있습니다. 따라서 모델 개발 작업을 수행하기 전에 데이터를 탐색하고, 이해하고, 상관 관계를 실행하고, 예측 트리를 이러한 종류의 것들로 예측하거나 추론하지만 메모리에 저장된 데이터에 대해 시각적으로 대화식으로 표시합니다. 플랫폼. 또한 BI 플랫폼에 도달하여 사용자가 볼 수있는 표준 종류의 기록을 수행 할 수있는 매우 광범위한 사용자를 보유하고있는 BI 커뮤니티에도 서비스를 제공합니다.

다음 단계에서는 서비스를 시작합니다. 또한 통계 전문가와 분석 전문가가 데이터를 메모리에 저장하고 시각적 분석에서 제거하고 시각적 통계 응용 프로그램을 탐색하여 이러한 종류의 임시 모델링을 수행 할 수 있도록합니다. 이것은 사람들이 반복을 수행하고, 모델을 실행하고, 결과를 보는 데 사용되는 배치로 통계를 실행하지 않는 기회입니다. 따라서 모델을 실행할 수 있습니다. 결과를보십시오. 이는 대화식 통계 모델링으로 시각적으로 끌어서 놓기위한 것입니다. 따라서 이것은 통계 학자와 데이터 과학자에게 초기 탐색 적 시각적 통계 작업을 많이 수행하도록합니다.

그리고 우리는 코더를 잊어 버리지 않았습니다. 실제로 원하는 사람들은 인터페이스 레이어를 벗겨 낼 수 있고, 애플리케이션을 작성하고 SAS에서 자체 코드베이스를 작성하는 것입니다. 이것이 하둡에 대한 메모리 내 통계입니다. 그리고 이것은 본질적으로 Analytic LASR 서버와 상호 작용하여 명령을 직접 실행하고 요청에 따라 해당 응용 프로그램을 사용자 정의 할 수있는 코드 계층입니다. 이것이 분석 작품입니다.

이런 것들이 어떻게 설정 되는가… 죄송합니다. 죄송합니다. 우리는 거기에 갈.

그래서 우리는 이것을하는 몇 가지 방법이 있습니다. 하나는 빅 데이터 (이 경우 하둡)로이를 수행하는 것입니다. 여기에서 하드 코어 분석에 최적화 된 별도의 시스템 클러스터에서 SAS LASR Analytic 서버를 실행하고 있습니다. 이것은 빅 데이터 플랫폼에 가깝고 빅 데이터 플랫폼과 가깝게 배치되어 빅 데이터 플랫폼과 별도로 확장 할 수 있습니다. 그래서 우리는 사람들이 Hadoop 클러스터의 각 노드에서 뱀파이어 소프트웨어를 먹어 치우는 것과 같은 특징을 갖고 싶지 않을 때 이것을하는 것을 봅니다. 또한 인 메모리 분석을 많이 수행하는 데 적합한 빅 데이터 플랫폼을 반드시 확장 할 필요는 없습니다. 따라서 Hadoop 클러스터의 120 개 노드가있을 수 있지만 이러한 종류의 작업을 수행하도록 설계된 16 개의 분석 서버 노드가있을 수 있습니다.

우리는 여전히 데이터를 메모리로 가져 오기 위해 빅 데이터 플랫폼의 병렬 처리를 유지할 수 있습니다. 따라서 실제로 Hadoop 플랫폼과 함께 SAS를 사용하고 있습니다. 그렇다면 다른 약속 모델은 우리가 그 상품 플랫폼을 사용하고이를 Hadoop 플랫폼에서 본질적으로 Analytic LASR 서버를 실행할 수 있도록하는 것입니다. 이것이 바로 우리가있는 곳입니다. 빅 데이터 플랫폼 내부에서 운영하고 있습니다. 또한 다른 어플라이언스 공급 업체도 있습니다. 그래서 우리는 그 상품 플랫폼을 기본적으로 사용하여 그 일을 할 수있었습니다.

우리는 단일 서빙 또는 단일 사용 분석 실행, 더 많은 배치 중심의 고성능 분석과 같은 경우가 더 자주 있음을 알았습니다. Hadoop에서 메모리 공간을 반드시 소비하고 싶지는 않습니다. 플랫폼. 우리는 이런 종류의 배포 모델에서 매우 유연합니다. 많은 경우에 YARN과 함께 일하면서 훌륭한 클러스터를 재생하고 있습니다.

자, 이것이 분석 세계입니다. 분석 응용 프로그램과 함께 명확하게 설명하십시오. 그러나 처음에는 SAS도 데이터 관리 플랫폼이라고 언급했습니다. 그리고 적절한 곳에 로직을 해당 플랫폼에 적용하는 것이 적절합니다. 우리가하는 몇 가지 방법이 있습니다. 하나는 데이터 통합 세계에 있으며, 데이터에 대한 데이터 변환 작업을 수행하는 것은 이전에 들었던 것처럼 데이터를 철회하는 것이 이치에 맞지 않을 수 있습니다. 우리는 데이터 품질 루틴과 같은 것들을 그 플랫폼으로 확실히 밀어 내고자합니다. 그리고 모델 점수와 같은 것들. 모델을 개발했습니다. MapReduce에서 해당 내용을 다시 작성하고 네이티브 데이터베이스 플랫폼에서 작동하는 작업을 다시 수행하기가 어렵고 시간이 많이 걸리지 않게하고 싶습니다.

예를 들어 Hadoop의 스코어링 액셀러레이터를 살펴보면 기본적으로 모델을 가져 와서 SAS 수학 논리를 해당 Hadoop 플랫폼으로 푸시 다운하여 빅 데이터 플랫폼 내부의 병렬 처리를 사용하여 실행할 수 있습니다. 그런 다음 하둡을 포함한 다양한 플랫폼을위한 코드 가속기가 있으며, 플랫폼에서 SAS 데이터 단계 코드를 대규모 병렬 방식으로 실행하여 플랫폼에서 데이터 변환 작업을 수행 할 수 있습니다. 그런 다음 SAS 데이터 품질 액셀러레이터를 사용하면 성별 일치, 표준화 일치 코드 (오늘날 이미 들어 본 다양한 데이터 품질)와 같은 작업을 수행 할 수있는 품질 지식 기반을 확보 할 수 있습니다.

마지막으로 Data Loader가 있습니다. 우리는 비즈니스 사용자가 이러한 빅 데이터 플랫폼에서 코드를 작성하거나 데이터 변환 작업을 수행 할 필요가 없어야한다는 것을 알고 있습니다. Data Loader는 WYSIWYG GUI로 다른 기술을 하나로 묶을 수 있습니다. 예를 들어 Hive 쿼리를 실행하거나 데이터 품질 루틴을 실행하고이 경우 코드를 작성할 필요가없는 연습 마법사와 같습니다.

마지막으로 언급 할 것은이 앞 부분입니다. 앞에서 언급했듯이 우리는 전세계에 거대한 SAS 발을 가지고 있습니다. 그리고이 공간에있는 모든 플랫폼을 즉시 수행 할 수있는 것은 아닙니다. 따라서 Teradata에서 데이터를 가져 와서 Hadoop으로 다시 가져 오는 등의 빅 데이터 플랫폼에 데이터를 가져와야하는 기존 사용자 그룹이 있습니다. 모델 실행 SAS 서버에서 실행하는 방법을 이미 알고 있지만 현재 Hadoop 플랫폼에 배치되는 데이터를 가져와야합니다. "from"이라는 작은 아이콘이 있습니다. SAS 액세스 엔진을 사용하여 연결할 수 있습니다. 액세스 엔진은 Hadoop, Cloudera, Pera의 Cloudera, Teradata, Greenplum 등입니다. 목록은 계속됩니다. 이를 통해 이미 존재하는 기존의 성숙한 SAS 플랫폼을 사용하여 이러한 플랫폼에서 데이터를 얻고, 수행해야하는 작업을 수행하고, 결과를이 영역으로 되돌릴 수 있습니다.

마지막으로 언급 할 내용은 모든 기술에 동일한 표준 공통 메타 데이터가 적용된다는 것입니다. 따라서 변환 작업, 데이터 품질 규칙을 메모리로 옮겨 분석, 모델 개발 평가를 수행 할 수 있도록 메모리로 옮깁니다. 우리는 전체 분석 라이프 스타일, 라이프 사이클이 일반적인 메타 데이터, 거버넌스, 보안, 오늘 우리가 이전에 이야기했던 모든 것들에 의해 관리됩니다.

요약하자면, 실제로 가지고 갈 세 가지 큰 것들이 있습니다. 하나는 데이터 플랫폼을 다른 데이터 소스와 마찬가지로 다른 데이터 소스와 동일하게 취급하여 적절하고 편리한 시점에 데이터를 푸시 할 수 있다는 것입니다. 우리는 이러한 빅 데이터 플랫폼과 협력하여 데이터를 메모리 플랫폼의 고급 분석에 특화된 것으로 나열 할 수 있습니다. 이것이 LASR 서버입니다.

마지막으로, 빅 데이터 플랫폼에서 직접 작업하여 데이터를 이동하지 않고도 분산 처리 기능을 활용할 수 있습니다.

에릭 : 글쎄, 그건 환상적이야. 네, 대단합니다! 이제 몇 가지 질문에 대해 알아 보겠습니다. 우리는 일반적으로이 사건들에 대해 약 70 분 또는 약간 더 깁니다. 그래서 우리는 여전히 많은 사람들이 거기 앉아 있습니다. 조지, 나는 첫 번째 질문을 당신에게 넘길 것 같아요. 바이너리 사운드를 Hadoop으로 푸시하는 것에 대해 이야기한다면 계산 워크 플로를 실제로 최적화 한 것처럼 들립니다. 이러한 유형의 실시간 데이터 거버넌스, 데이터 품질 스타일 성과를 달성하려면 이것이 핵심 가치입니다. 이것이 바로 원하는 가치이기 때문입니다. 매우 번거롭고 시간이 많이 걸리는 MDM의 오래된 세계로 돌아가고 싶지 않다면 사람들이 특정 방식으로 행동하도록 강요해야합니다. 그리고 당신이 한 일은, 당신은 과거의주기를 요약 한 것입니다. 며칠, 몇 주, 때로는 몇 달에서 몇 초까지 봅시다. 무슨 일이야?

George : 정확히 맞습니다. 클러스터에서 얻은 규모와 성능은 실제로 벤치 마크에 대해 조금 주저합니다. 그러나 10 억 개, 12 억 건의 레코드를 실행하고 완전한 주소 표준화를 수행 할 때 (중급 HP 기계라고 말하면) 8 개의 프로세서 기계가 필요합니다. 코어 당 2 기가 바이트의 RAM은 실행하는 데 20 시간이 걸립니다. 약 12 분 안에 12 노드 클러스터에서이를 수행 할 수 있습니다. 그리고 지금 우리가 할 수있는 처리의 규모는 너무나도 다릅니다. 그리고이 모든 데이터를 마음대로 사용할 수 있다는 생각과 아주 잘 어울립니다. 따라서 처리를 수행하는 것만 큼 위험하지는 않습니다. 잘못한 경우 다시 실행할 수 있습니다. 당신은 시간이 있어요 이러한 유형의 위험이 사람들이 MDM 솔루션을 운영하려고 할 때 실제로 비즈니스 문제가 된 곳에서 실제로 규모가 바뀌 었습니다. 데이터 거버넌스 및 모든 작업을 수행하는 직원은 30 명입니다. 따라서 여전히 그 중 일부를 가져야하지만 지금 처리 할 수있는 속도와 규모는 실제로 더 많은 호흡 공간을 제공합니다.

에릭 : 네, 정말 좋은 지적입니다. 나는 그 의견을 좋아한다. 따라서 다시 실행할 시간이 있습니다. 환상적입니다.

조지 : 예.

에릭 : 글쎄, 그것은 역학을 바꾼다. 그렇지? 시도하려는 것에 대한 생각을 바꿉니다. 내 말은, 나는 그 공간에 클라이언트가 있었기 때문에 18 년 전 특수 효과를 수행하는 산업에서 이것을 기억합니다. 버튼을 눌러 렌더링하면 집으로 돌아갑니다. 토요일 오후에 돌아와서 어떻게되는지 보려고했을 것입니다. 그러나 만약 당신이 틀렸다면, 그것은 매우, 매우, 매우 아 was습니다. 이제는 거의 끝나지 않았습니다. 고통스럽지 않아서 더 많은 것을 시도 할 수 있습니다. 나는 정말 좋은 지적이라고 생각합니다.

조지 : 맞습니다. 네, 여분의 다리를 날려 요 아시다시피, 당신은 옛날에 일을 반쯤 겪고 실패합니다. SOS를 날려 버렸습니다. 그게 다야

에릭 : 그렇습니다. 당신은 큰 어려움에 처했습니다 맞습니다.

조지 : 그렇습니다. 맞습니다.

에릭 : 키이스, 내가 당신에게 하나를 던져 보자. 나는 당신의 CIL, Keith Collins와의 인터뷰를 기억합니다. 또한 SAS에서 파생 된 분석을 운영 체제에 포함시키기 위해 고객과의 협력과 관련하여 SAS가 취한 방향에 대해 많은 이야기를했습니다. 물론, 우리는 Mike Ferguson이 기억의 중요성에 대해 이야기하는 것을 들었습니다. 여기서의 전체 아이디어는이 물건을 작업에 묶을 수 있기를 원한다는 것입니다. 기업과 연결이 끊긴 진공 상태에서 분석하고 싶지 않습니다. 그것은 가치가 없습니다.

운영에 직접 영향을 미치고 최적화 할 수있는 분석이 필요한 경우. 그리고 제가 되돌아 보면, 그리고 그것이 좋은 생각이라고 생각했습니다 – 그것은 정말, 현명한 아이디어 인 것 같습니다. 그리고 저는 여러분들이 가지고있는 진정한 이점입니다. 물론이 위대한 유산,이 거대한 설치 기반, 그리고 이러한 분석을 운영 체제에 포함시키는 데 주력하고 있다는 사실은 지금 당장 당연한 일이지만 실제로는 약간의 노력이 필요합니다. 매우 열심히 노력하고 있습니다. 그러나 이제는 이러한 새로운 혁신을 모두 활용할 수 있으며 고객과 함께 모든 것을 운영 할 수 있다는 측면에서 실제로 있습니다. 이것이 공정한 평가입니까?

Keith : 물론입니다. 이 개념은 의사 결정 디자인이나 의사 결정 과학에 대한 아이디어를 얻는데, 어느 정도는 탐구적이고 과학적인 것입니다. 실제로 공정 개발을 위해 엔지니어링을 할 수 없다면… 자동차 개발에 대해 생각한다면,이 아름다운 자동차를 만드는 디자이너가 있습니다. 그러나 엔지니어가 그 계획을 세우고 실제 실행 가능한 제품을 만들기 전에는 그렇지 않습니다. 실제로 사물을 제자리에 놓을 수 있습니다. 이것이 바로 SAS가 수행 한 일입니다. 의사 결정 설계 프로세스와 의사 결정 엔지니어링 프로세스를 함께 의사 결정과 병합하여 가속기, 스코어링 가속기에 대해 이야기 할 때 개발 한 모델을 가져 와서 밀어 낼 수 있는지 구체적으로 알 수 있습니다. 모델 개발을위한 가동 중지 시간없이 모델 배포를 위해 Teradata로 전환하거나 Oracle 또는 Hadoop으로 푸시하십시오. 핵심은 시간이 지남에 따라 모델의 성능이 저하되기 때문입니다. 따라서이를 가져와 생산에 투입하는 데 시간이 오래 걸리는 것은 모델 정확도 손실입니다.

그리고 다른 하나는 시간이 지남에 따라 해당 프로세스를 모니터링하고 관리 할 수 있기를 원한다는 것입니다. 오래되고 부정확 한 모델은 더 이상 사용되지 않습니다. 당신은 그것을보고, 시간이 지남에 따라 정확성을 확인하고 다시 빌드하고 싶습니다. 그리고 그 위에 모델링 프로세스 주위의 메타 데이터를 실제로 추적하는 모델 관리 도구도 있습니다. 사람들은 모델링이 모델 팩토리와 같거나 호출하려는 모든 것과 같다고 말합니다. 문제는 메타 데이터와 관리 과정을 진행하는 데있어 가장 큰 세 가지 요소는 사람들이 돈을 벌고 돈을 저축하며 감옥에 가지 못하게하는 것입니다.

에릭 : 마지막 것 역시 꽤 큽니다. 나는 그 모든 것을 피하려고합니다. 그럼에 대해 이야기합시다 ...마지막 질문 하나를하겠습니다. 여러분 각자는이 두 가지를 모두 뛸 수 있습니다. 우리 세상의 이질성은 증가 할 것입니다. 하이브리드 클라우드 환경을 중심으로 결정화가 진행될 것입니다. 그럼에도 불구하고, 당신은 많은 주요 선수들이 고집하는 것을 보게 될 것입니다. IBM은 아무데도 가지 않습니다. 오라클은 아무데도 가지 않습니다. SAP는 아무데도 가지 않습니다. 그리고이 게임에 관련된 다른 많은 벤더가 있습니다.

또한 운영 측면에서 문자 그대로 수천 가지의 다양한 종류의 응용 프로그램이 있습니다. 그리고 나는 들었습니다. 대부분의 사람들이 이것에 대해 이야기하지만 둘 다 내가 말한 것에 동의 할 것이라고 생각합니다. 우리는 분석 엔진, 아키텍처에서의 계산 능력 측면에서이 추세를 보았습니다. 회사는 수년 동안 다른 엔진을 활용하고 일종의 오케스트레이션 지점에 서비스를 제공하는 것에 대해 이야기 해 왔습니다. 제 생각에 조지, 먼저 버리겠습니다. 변하지 않을 것 같습니다. 우리는 이기종 환경을 갖게 될 것입니다. 즉, 실시간 CRM 및 데이터 품질 및 데이터 거버넌스와 같은 것이 있습니다. 모든 다른 도구와 인터페이스하려면 공급 업체로서 필요합니다. 이것이 바로 고객이 원하는 것입니다. 그들은 이러한 도구로는 문제가되지 않으며 그러한 도구로는 문제가되지 않습니다. 그들은 MDM과 CRM의 스위스를 원할 것입니다.

조지 : 그렇습니다. 우리는 그것을 매우 많이 받아 들였기 때문에 흥미 롭습니다. 그것의 일부는 우리가 우주에서 가지고 있었던 역사입니다. 그리고 분명히 우리는 이미 다른 모든 데이터베이스, Teradatas 및 세계 조각에 대해 작업하고있었습니다. 그런 다음 구현 프로세스에서, 특히 우리가 수행 한 방식대로 모든 다양한 데이터베이스에 걸쳐서 그 범위를 갖도록 만들었습니다. 내가 흥미롭게 생각하는 것 중 하나는 모든 관계형 데이터베이스를 제거하는 데 어려움을 겪은 클라이언트가 있다는 것입니다. 그리고 그것은 흥미 롭습니다. 알다시피 괜찮습니다 흥미 롭군. 그러나 나는 그것이 대기업 규모에서 실제로 일어나는 것을 보지 못합니다. 오랫동안 그런 일이 일어나지 않습니다. 그래서 하이브리드는 캠페인 관리 플랫폼에 메시징 플랫폼이있는 애플리케이션의 다른 측면과 오랜 시간 동안 여기에 있다고 생각합니다. 실제로 설계했습니다. 이제는 하이브리드 데이터 환경에 연결하여 Hadoop을 쿼리하거나 데이터베이스 또는 분석 데이터베이스를 쿼리 할 수있는 버전을 출시했습니다. 그래서 저는 이것이 미래의 물결이라고 생각합니다. 그리고 가상화가 확실히 큰 역할을 할 것이라는 데 동의합니다. 그러나 우리는 단지 모든 응용 프로그램의 데이터로 바로 나아가고 있습니다.

에릭 : 좋습니다. 키이스, 내가 너에게 넘겨 줄게 우리가 직면 한 이기종 세계에 대해 어떻게 생각하십니까?

Keith : 정말 흥미 롭습니다. 데이터 관리 측면에서뿐만 아니라 현재 가장 흥미로운 점은 분석 기반의 오픈 소스 특성이라고 생각합니다. 따라서 Spark와 같은 기술 또는 Spark와 같은 기술이 등장하고 Python 및 R 및 기타 모든 오픈 소스 기술을 사용하는 사람들이 있습니다. 나는 그것이 일종의 갈등이나 위협으로 해석 될 수 있다고 생각합니다. 그러나 현실은 모든 오픈 소스 기술에 대한 훌륭한 칭찬입니다. 하나는, 우리는 오픈 소스 플랫폼 위에서, 하나님을 위해서 운영하고 있다는 뜻입니다.

그러나 예를 들어 R 모델을 SAS 패러다임에 통합 할 수있는 것과 같이 두 세계를 모두 사용할 수 있습니다. 마찬가지로, 우리는 학계의 일부 실험적인 것들과 일부 모델 개발 작업이 모델 개발 과정에서 특별하고 매우 도움이된다는 것을 알고 있습니다. 또한 프로덕션 클래스 종류의 도구와 함께 사용할 수 있다면 많은 정리 및 품질을 수행하고 모델에 제공되는 데이터가 검사 및 확인되어 제대로 준비되어 있으므로 실패하지 않습니다. 실행시. 그런 다음 오픈 소스 모델을 사용하여 챔피언 도전자 모델과 같은 작업을 수행 할 수 있습니다. 이것이 우리가 가능하게하려는 것들이며,이 모든 기술의 이기종 생태계의 일부입니다. 그래, 그게 더 중요합니다. 우리에게는 그 기술을 수용하고 칭찬을 찾는 것이 더 중요합니다.

에릭 : 글쎄요. 우리는 여기에 조금 오래 갔지만 가능한 많은 질문을하고 싶습니다. 오늘 발표자에게 Q & A 파일을 전달하겠습니다. 따라서 귀하가 요청한 질문에 대한 답변이 없을 경우 답변을 드릴 것입니다. 여러분, 이것이 2014 년을 마무리합니다. 내일과 다음 주에 DM 라디오에서 여러분 모두를 진심으로 축하합니다.

이 모든 멋진 웹 캐스트를 통해 시간과 관심을 가져 주셔서 감사합니다. 우리는 2015 년을 맞이할 멋진 한 해를 보냈습니다. 그리고 여러분, 곧 여러분과 이야기 할 것입니다. 다시 감사합니다. 우리는 돌볼 것입니다. 안녕.