SQL이 충분하지 않은 경우 : 대규모 새 데이터 센터에 대한 제어

동영상: Data Modernization in a day - Part1 | Azure SQL과 Azure OSS Database

콘텐츠

Google 파일 시스템 : 큰 사례 연구
버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드
핵심 기술 살펴보기
다른 큰 시스템은 어떻게 이것을 달성합니까?
DFS 유지 관리

테이크 아웃 :

개발자와 엔지니어는 1990 년대의 전형적인 원형보다 훨씬 더 성장한 플랫폼에서 서비스 속도를 높이고 개선하기 위해 지속적으로 노력해야합니다.

우리의 사생활에 대한 수많은 데이터 비트를 보유한 거대한 NSA 데이터 센터에 대한 모든 소문이 있지만, 적어도 CNN에 대해서는 많이 언급되지 않은 것이 있습니다. 여기에는 클라우드 기술, 빅 데이터 및 현재 전 세계에 구축되고있는 인상적인 물리적 데이터 스토리지 센터와 함께 발생한 엔지니어링 문제가 포함됩니다. 그래서 무엇입니까? 이러한 시설을 운영하는 거대한 IT 시스템 중 하나를 누가 관리하든 관계없이 모든 데이터를 신속하게 파이프 라인으로 들어오고 나가는 데 도움이되는 소프트웨어 시스템이 필요합니다. 이러한 요구는 오늘날 전문가들이 직면 한 가장 흥미로운 IT 질문 또는 퍼즐 중 하나입니다.

많은 전문가들이 지적 하듯이 오늘날 데이터 처리에 대한 극단적 인 요구는 기존의 접근 방식을 훨씬 뛰어 넘습니다. 간단히 말해서, 간단한 데이터베이스 구조와 SQL 쿼리 인터페이스와 같은 도구를 사용하면 지난 몇 년 동안 개발 된 독점 시스템과 같은 처리 성능이나 기능을 충분히 제공 할 수 없습니다. 오늘날의 대기업의 아카이브에는 확장 성이 뛰어난 기술이 필요합니다. 단일 서버가 지원할 수있는 것보다 훨씬 많은 양의 결과를 입력 및 출력 할 수있는 데이터 처리 도구가 필요합니다. 성장을 위해 빠르게 발전 할 수있는 솔루션, 복잡한 인공 지능 수준을 포함하는 솔루션, IT 부서에서 쉽게 관리 할 수 있도록 설계된 솔루션이 필요합니다.

문제는 기업과 정부 기관이 기존의 데이터 처리 경로의 한계를 어떻게 극복 하는가입니다. 다음은 매우 유망한 옵션 중 하나 인 빅 데이터를 처리하는 소프트웨어와 여러 데이터 센터의 관리를 살펴 보겠습니다.

Google 파일 시스템 : 큰 사례 연구

Google이 데이터 센터에 액세스하는 데 사용하는 독점 기술은 빅 데이터 처리 및 여러 데이터 센터 관리를위한 공통 모델의 가장 좋은 예 중 하나입니다. 2003 년에 개발 된 Google 파일 시스템 (GFS)은 수백만 명의 사용자가 클릭 할 때 단일 플랫폼에 많은 양의 새로운 정보를 제공하는 데이터 시스템에 대한 대량의 고속 수정을 지원하도록 설계되었습니다. 동시. 전문가들은 이것을 분산 파일 시스템이라고하며 "데이터 객체 스토리지"라는 용어를 사용하여 이러한 매우 복잡한 기술을 설명합니다. 그러나 실제로 이러한 용어는 실제 상황을 설명하는 용어로 표면을 긁지 않습니다.

개별적으로 GFS와 같은 시스템을 구성하는 기능과 구성 요소는 더 이상 획기적인 것이 아니지만 복잡합니다. 이들 중 상당수는 항상 항상 연결된 새로운 글로벌 IT 시스템의 토대가되는 비교적 새로운 혁신으로이 사이트에서 다루어졌습니다. 전체적으로 GFS와 같은 시스템은 그 부분의 합보다 훨씬 더 큽니다. 개별적인 데이터 조각이 이런 식으로 던져지고 시각적으로 완전히 모델링 된 경우 혼란으로 보이는 프로세스에서 볼 수는 없지만 보이지 않는 매우 복잡한 네트워크입니다. 이 시스템의 전투 스테이션을 운영하는 사람들이 쉽게 인정할 수 있기 때문에 모든 데이터가 어디로 가고 있는지 이해하려면 많은 에너지와 헌신이 필요합니다.

"단일 간결한 문장에서 작동 방식을 요약하기 위해 외부 및 내부 조각화, 로그 기반 vs. 전체 업데이트 및 트랜잭션 일관성 수준을 포함하여 사용성 영역에 중대한 영향을 미치는 세부 정보가 너무 많습니다. Sanbolic의 CEO 겸 공동 설립자 인 Momchil Michailov는 말합니다.

"분산 파일 시스템은 로컬 네임 스페이스와 참여 노드의 여유 공간으로 구성된 분산 애그리 게이터이거나 분산 잠금 관리자 구성 요소를 사용하여 공유 스토리지에 액세스하는 여러 노드에서 실행되는 로컬 파일 시스템입니다."

Kerry Lebel은 확장 가능한 자동화 플랫폼으로 유명한 Automic의 선임 제품 관리자입니다. Lebel은 DFS를 저비용 하드웨어에 연결된 서버에 단순히 작업 부하를 할당하는 시스템으로 설명하는 것은 정확하지만 실제로 전체 내용을 알려주지는 않는다고 말합니다.

버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

"결국 결여 한 것은 어떻게 Lebel은 이렇게 말합니다.

기술적 세부 사항에서 벗어나 분산 파일 시스템의 기본 개념에 대해 생각할 때 Lebel이 말하는 "쿨 팩터"가 분명합니다. 이러한 빅 데이터 처리 시스템은 기존의 파일 / 폴더 시스템을 여러 전달 시스템뿐만 아니라 병목 현상을 방지하기 위해 여기저기서 수많은 단위가 축소되는 "객체 지향"접근 방식을 포함하는 구조로 대체합니다.

예를 들어, 수십만 대의 자동차가 여러 차선으로 곧장 깔려 내려 오는 것이 아니라 깔끔하고 작은 클로버 잎 또는 옥스 보우 지류로 퍼져 나가는 최첨단 고속도로 시스템을 생각해보십시오. 다양한 우회 목적지로 향합니다. 하늘에서 모든 것이 스위스 시계처럼 안무 된 것처럼 보입니다. 엔지니어가 다양한 수준의 다 계층 데이터 억제 스키마에 정보를 "차기"함으로써 한계에 관한 정보를 라우팅하는 새로운 방법을 꿈꾸는 엔지니어들이 바라본 시각 모델입니다. 사양을 제외하고, 이것은 처리 시스템의 최상위 목표입니다. 내장 메타 데이터가있는 자체 포함 된 개체를 필요한 위치로 최고 속도로 이동하거나 일관성 목표에 도달하거나 최종 사용자를 만족 시키거나 최고 수준의 관찰 또는 분석을 제공하기 위해.

핵심 기술 살펴보기

Ars Technica에 게재 된 Sean Gallagher의 기사는 GFS 디자인을 다소 관리하기 쉬운 부분으로 나누고 Google의 시트 아래에 무엇이 있는지 암시합니다.

GFS는 데이터 읽기 및 쓰기를위한 중복 및 내결함성 모델로 시작합니다. 여기서 아이디어는 단일 드라이브에 특정 업데이트를 작성하는 대신 새로운 시스템이 여러 대상에 데이터 청크를 기록한다는 것입니다. 그렇게하면 하나의 쓰기가 실패해도 다른 쓰기는 유지됩니다. 이를 수용하기 위해 하나의 기본 네트워크 구성 요소는 다른 하위 장치에 대한 데이터 처리를 수행하여 클라이언트가 "호출"할 때 데이터를 다시 집계합니다. 이 모든 것은 특정 업데이트 및 전송 결과가 더 큰 시스템 내에서 어디에 있는지 식별하는 데 도움이되는 메타 데이터 프로토콜에 의해 가능합니다.

이것의 또 다른 매우 중요한 측면은 이러한 중복이 많은 시스템이 데이터 일관성을 강화하는 방법입니다. Gallagher가 지적했듯이 GFS 디자인은 일관성을 유지하면서도 원 자성을 강화하거나 시간이 지남에 따라 여러 저장 장치에서 데이터가 업데이트되는 방식의 원칙을 보호합니다. Google의 "이완 된 일관성 모델"은 BASE 모델의 필수 이론을 따르는 것으로 보입니다. 이는 일관성 강화를 위해 더 긴 시간 동안 더 많은 유연성을 제공합니다.

다른 큰 시스템은 어떻게 이것을 달성합니까?

Michailov는“충분히 큰 규모에 도달하면 데이터의 불일치 또는 손상이 불가피하게 발생합니다. 따라서 분산 파일 시스템의 주요 목표는 손상이있는 경우 가능한 한 많은 작업을 수행하는 동시에 동시에 손상을 처리 할 수있는 효율적인 방법을 제공하는 것이어야합니다. " Michailov는 신중한 이중화 구현을 통해 성능을 유지해야 할 필요성을 언급했습니다.

Michailov는“예를 들어, 각 디스크에 메타 데이터 (데이터에 대한 데이터)를 생성하면 미러 사본이 손상된 경우 해당 디스크가 적절한 데이터 구조를 재 구축 할 수 있습니다. "또한, RAID 레벨을 사용하여 파일 시스템 수집기 또는 공유 볼륨 관리자 레벨에서 스토리지 장애에 대처할 수 있습니다."

Lebel은 또 다른 일관성 모델에 대해 Hadoop 분산 파일 시스템 (HDFS)이라는 시스템에 중점을두고 "업계 사실상의 표준"이라고합니다.

Lebel은 HDFS에서 각 데이터 블록은 서로 다른 노드와 두 개의 다른 랙에 세 번 복제된다고 말합니다. 데이터는 엔드-투-엔드로 점검됩니다. 손상된 블록을 제거하고 새로운 블록을 생성하는 Data Handler 인 NameNode에 실패가보고됩니다.

이 모든 것은 이러한 대량 데이터 시스템 중 하나의 무결성에 매우 중요한 종류의 "정리 데이터"를 지원합니다.

DFS 유지 관리

GFS에 대한 또 다른 모습은 Wired 작가 Steven Levy의 2012 년 10 월 기사에서 나온 것입니다. Google의 종합적인 하향식 네트워크 처리를위한 소프트웨어 접근 방식을 특성화하는 것이 훨씬 짧습니다.

Levy는 "수년 동안 수많은 서버를 마치 하나의 거대 기업처럼 관리 할 수있는 소프트웨어 시스템을 구축했습니다. 사내 개발자는 퍼펫 마스터처럼 행동하여 수천 대의 컴퓨터를 파견하여 "단일 머신을 실행하는 것만 큼 쉽게 할 수 있습니다."

이 작업에는 서버 시스템을 "중단"하려는 전담 테스트 팀에서 데이터 크립 홀 전체의 온도를 신중하게 제어하는 데 이르기까지 수많은 사이버 기반 및 환경 유지 관리가 포함됩니다.

Levy는 또한 클라우드 애플리케이션 도구 인 MapReduce와 GFS와 일부 설계 원칙을 공유하는 분석 엔진 인 Hadoop과 같은 GFS를위한 보충 기술에 대해서도 언급합니다. 이러한 도구는 빅 데이터 센터 처리 시스템의 설계 방식과 향후 발생할 가능성에 영향을줍니다. (빅 데이터의 진화에서 이러한 기술에 대해 자세히 알아보십시오.)

Michailov는 MapReduce가 더 큰 규모의 데이터 센터 시스템을 지원할 수 있다고 믿고 스토리지 용 SSD를 사용하여 공유 클러스터에 집계 된 파일 시스템의 이름 노드를 유지할 수있는 공유 및 집계 된 파일 시스템의 "단일 구현"에 대해 이야기합니다. "

Lebel은 배치 처리 (Hadoop 지원 방법)에서 스트림 처리로 이동하여 이러한 데이터 작업을 실시간에 더 가깝게 할 것으로보고 있습니다.

Lebel은 "데이터 처리 속도가 빨라지고 비즈니스 의사 결정 자나 고객이 데이터를 이용할 수있게되면 경쟁 우위가 더 커질 것"이라고 말했다. 최종 사용자. Lebel은 "동기"활동 또는 최종 사용자 작업과 동기화 된 활동 및 구현 측면에서보다 유연한 "비동기"활동에 대해 생각함으로써 회사는 SLA 및 기타 리소스를 사용하여 지정된 서비스 시스템의 작동 방식을 정의 할 수 있다고 밝혔다. .

이 모든 것이 요약하자면 개발자와 엔지니어는 1990 년대의 고전적인 원형보다 훨씬 더 성장한 플랫폼에서 서비스 속도를 높이고 개선하기 위해 지속적으로 노력해야한다는 것입니다. 이는 데이터 기계를 비판적으로보고 증가하는 인구를 지원할뿐만 아니라 전문가들이 "차기 산업 혁명"이라고 부르는 브레이크 넥 속도로 기하 급수적으로 변화하는 것을 의미합니다. 이 분야에서 가장 많은 것을 깨는 사람들은 미래 시장과 경제에서 지배적 일 것입니다.