데이터는 어떻게 구성되어 있습니까? 구조적, 비 구조적 및 반 구조적 데이터 검사

콘텐츠

구조화 된 데이터 란?
비정형 데이터 란?
버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드
중간에 있음 : 반 구조적 데이터
비정형 데이터를 구조적 데이터로 변환 할 수 있습니까?

출처 : monsitj / iStockphoto

테이크 아웃 :

정형, 비정형 및 반 정형 데이터에 대해 알아보십시오.

과거에는 데이터 분석가가 한 가지 유형의 데이터 (구조화 된 데이터)에서만 정보를 해독하고 추출 할 수있었습니다. 이 유형의 데이터는 명확한 패턴으로 인해 쉽게 검색 할 수 있었지만 사용 가능한 총 데이터의 작은 비율을 나타 냈습니다.

비정형 데이터에는 비디오, 오디오, 소셜 미디어 및 모바일 장치에서 오는 데이터가 포함됩니다. 가장 많은 양의 원시 정보를 보유하고 있었지만 아무도이 리소스를 안정적으로 활용할 수 없었습니다.

그러나 스토리지 가용성과 우수한 처리 기능의 증가로 인해 구조화되지 않은 데이터 분석이 생겨나면서 새롭고 미숙 한 형태의 기술이 탄생하면서 상황이 바뀌 었습니다. 더 나은 비즈니스 인텔리전스가이 기회를 최대한 활용하고 있으며 구조화되고 구조화되지 않은 데이터 분석을 집계하여이 무한한 정보의 금광에 액세스하기 위해 상당한 투자가 이루어지고 있습니다.

이 두 가지 데이터 형식을보고 차이점과 모든 데이터 분석가의 미래에 대한 이해를 이해하십시오.

구조화 된 데이터 란?

구조화 된 데이터는 관계형 데이터베이스 (RDB)라고하는 행 데이터베이스 구조에 쉽게 저장할 수있는 사람이 생성하거나 컴퓨터에서 생성하고 체계적으로 구성된 정보입니다. RDB 구조로 쉽게 캡처, 저장 및 구성하여 나중에 분석 할 수있는 형식으로 존재합니다. 데이터베이스에 대한 자세한 내용은 데이터베이스 소개를 참조하십시오.

예를 들어 우편 번호, 전화 번호 및 연령 또는 성별과 같은 사용자 인구 통계가 있습니다. 이러한 데이터베이스에서 찾은 데이터는 Excel 스프레드 시트 내에서 SQL (Structured Query Language) 또는 VLOOKUP 함수로 쿼리 할 수 있습니다. 또한 색인 또는 숫자 및 알파벳 데이터를 사용하여 다양한 필드에서 찾은 데이터를 신속하게 검색하도록 알고리즘을 만들 수 있습니다. 그러나 모든 데이터는 필드 유형 및 이름 측면에서 엄격하게 정의되므로 저장, 쿼리 및 분석 기능이 어느 정도 제한됩니다.

구조화 된 데이터를 사용하는 일반적인 응용 프로그램에는 병원 관리 소프트웨어, CRM (고객 관계 관리) 응용 프로그램 및 항공사 예약 시스템이 포함됩니다. 깔끔한 구성과 손쉬운 접근성으로 인해 구조화 된 데이터는 많은 양의 정보를 처리 할 때 유용하고 효율적입니다. 그러나 인류가 매일 생성하는 끝없는 데이터에 숨겨진 검은 기름을 시추 할 때 구조화 된 데이터를 찾는 것은 표면을 긁는 것뿐입니다.

비정형 데이터 란?

조직에서 발견되는 대부분의 데이터는 구조화되어 있지 않으며 일부는 현재 사용 가능한 총 데이터의 최대 80 %로 추정합니다. 정의에 따르면 비정형 데이터는 식별 가능한 내부 구조가없는 모든 것입니다. 그러나이 범주에 속하는 일부 유형의 데이터 가지고있다 일부 형태의 모호한 내부 구조이지만 데이터베이스 나 스프레드 시트를 준수하지 않습니다.

버그 없음, 스트레스 없음-인생을 파괴하지 않고 인생을 바꾸는 소프트웨어를 만드는 단계별 가이드

아무도 소프트웨어 품질에 신경 쓰지 않으면 프로그래밍 기술을 향상시킬 수 없습니다.

고객 서비스 상호 작용, 파일, 웹 로그, 비디오 및 기타 멀티미디어 컨텐츠, 영업 자동화, 소셜 미디어 게시물에 이르기까지 대부분의 비즈니스 데이터는 구조화되어 있지 않습니다. 이 데이터를 채굴, 구성 및 분석 할 수 있다면 얼마나 가치가 있는지 설명 할 필요가 없습니다.

대부분의 비정형 데이터는 인간에 의해 생성되므로 다른 사람이 이해할 수 있습니다. 즉, 컴퓨터 언어 및 구조화 된 데이터베이스의 선형성과는 거리가 멀기 때문에 더 깔끔한 컴퓨터 인텔리전스는 이러한 유형의 정보를 이해하지 못합니다.

중간에 있음 : 반 구조적 데이터

반 구조화 된 데이터는 전체 파이의 훨씬 작은 조각 (5-10 %)을 나타내는 세 번째 유형의 데이터입니다. 두 세계간에 문자 적으로 포착 된 반 구조화 된 데이터에는 별도의 요소를 식별하지만 관계형 데이터베이스에 맞는 구조가없는 내부 의미 태그 및 표시가 포함됩니다.

예를 들어, 날짜, 파일 크기 또는 시간별로 분류 할 수 있으므로 구조화 된 데이터처럼 보일 수 있습니다. 그러나 가장 귀중한 정보는 상대적으로 단순한 레이블이 아니라 그 안에있는 정보이기 때문에 그렇지 않습니다. 인간은 기계가 분명하게 이해할 수 있도록 그러한 엄격한 패턴으로 말하지 않기 때문에 내용과 주제에 따라 진정으로 배열 될 수 없습니다. 반 구조화 된 데이터의 다른 예로는 NoSQL 데이터베이스, 개방형 표준 JSON 및 마크 업 언어 XML이 있습니다.

반 구조화 된 데이터는 일반적으로 메타 데이터 분석을 사용하여 분석하기 위해 쿼리하고 카탈로그 화합니다. 예를 들어, X- 레이 스캔은 이미지를 형성하는 수많은 픽셀로 구성되는데, 이는 본질적으로 액세스 할 수없는 구조화되지 않은 데이터입니다. 그러나 스캔 파일에는 주석 및 사용자 ID와 같은 정보를 제공하는 메타 데이터 부분이 여전히 포함됩니다.

비정형 데이터를 구조적 데이터로 변환 할 수 있습니까?

모든 데이터 분석가가 직면해야하는 근본적인 문제는 정보를 깔끔하고 질서있는 방식으로 정리하여 액세스하고 이해할 수 있도록하는 것입니다. 데이터 마이닝 도구는 일반적으로 사람의 언어와 유사한 정보를 구문 분석 할 수 없습니다. 즉, 다른 사람 만 정보를 수집하고 분류 할 수 있습니다.

그러나 구조화되지 않은 데이터의 양은 데이터를 저장하거나 구성하려고 할 때 매우 힘들고 비용이 많이 듭니다. 예를 들어 웹 기반 검색 엔진에서 오는 정보 풀은 매우 방대하므로 대부분의 요소는 가장 기본적인 정보를 추출하기 위해 작업 및 자원 측면에서 막대한 투자가 필요합니다. 가장 효율적인 데이터 마이닝 기술조차도 여전히 웹과 심층 웹 내부에서 발견되는 많은 양의 정보가 누락되었습니다.

그러나 기술은 존재합니다. 그리고 그들은 놀라운 속도로 개발되고 있습니다. 예를 들어 메타 데이터를 사용하여 구조화 된 데이터와 구조화되지 않은 데이터를 함께 연결할 수 있습니다. 수집 된 정보는 사용자와 알고리즘 모두에 의해 필터링 및 색인화 될 수 있으며 관련 데이터 만 분석 할 수 있습니다. 다른 솔루션으로는 "데이터 랭 글링 (data wrangling)"이 있으며, 이는 기술이 아닌 사용자가 복잡한 데이터를 단계적으로 점진적으로 구성하는 프로세스입니다. 데이터를 처리하는 일반 사용자에 대한 자세한 내용은 셀프 서비스 분석에서 빅 데이터가 어떻게 도움이되는지 참조하십시오.

언젠가는 조직화되지 않은 대량의 정보를보다 체계적이고 재구성 된 형식으로 효율적으로 변환 할 수있을 것입니다. 어쩌면 오늘도 아니고 내일도 아닐지 모르지만 곧 인류가 본 가장 큰 금고 인 빅 데이터를 습격 할 수있을 것입니다.