빅 데이터에 너무 많은 데이터가있을 수 있습니까?

작가: Laura McKinney
창조 날짜: 4 4 월 2021
업데이트 날짜: 1 칠월 2024
Anonim
Complete Guide of BigData, AI career from top expert
동영상: Complete Guide of BigData, AI career from top expert

콘텐츠

큐:

빅 데이터에 너무 많은 데이터가있을 수 있습니까?


에이:

질문에 대한 대답은 YES입니다. 빅 데이터 프로젝트에는 데이터가 너무 많을 수 있습니다.

이러한 일이 발생할 수있는 여러 가지 방법이 있으며 전문가가 올바른 결과를 얻기 위해 여러 가지 방법으로 데이터를 제한하고 선별해야하는 다양한 이유가 있습니다. (빅 데이터에 대한 10 가지 큰 신화를 읽으십시오.)

일반적으로 전문가들은 모델에서 "신호"와 "잡음"을 구별하는 것에 대해 이야기합니다. 다시 말해, 빅 데이터의 바다에서 관련 통찰력 데이터를 타겟팅하기가 어려워집니다. 어떤 경우에는 건초 더미에서 바늘을 찾으십시오.

예를 들어, 회사에서 빅 데이터를 사용하여 고객 기반 세그먼트에 대한 특정 통찰력과 특정 기간 동안의 구매를 시도한다고 가정합니다. (빅 데이터의 기능은 무엇입니까?를 읽어보십시오.)

엄청난 양의 데이터 자산을 가져 오면 관련이없는 임의의 데이터를 섭취하거나 데이터를 한 방향 또는 다른 방향으로 왜곡시키는 편향을 유발할 수 있습니다.

또한 컴퓨팅 시스템이 더 크고 더 큰 데이터 세트와 씨름해야하므로 프로세스 속도가 크게 느려집니다.

매우 다양한 종류의 프로젝트에서 데이터 엔지니어가 데이터를 제한된 특정 데이터 세트로 선별하는 것이 매우 중요합니다. 위의 경우, 이는 해당 고객 세그먼트에 대한 데이터 일 뿐이며 당시의 데이터 일 것입니다. 연구중인 프레임과 혼동을 일으키거나 시스템 속도를 늦출 수있는 추가 식별자 나 배경 정보를 제거하는 접근 방식입니다. (ReadJob 역할 : 데이터 엔지니어)

자세한 내용은 머신 러닝의 최첨단에서 어떻게 작동하는지 살펴 보겠습니다. (기계 학습 101을 읽으십시오.)

머신 러닝 전문가들은 새로운 생산 데이터에서 머신 러닝 프로그램이 느슨해지면 지나치게 복잡한 모델이 덜 효과적인 결과를 초래하는 "과적 합 (overfitting)"에 대해 이야기합니다.


복잡한 데이터 포인트 세트가 초기 트레이닝 세트와 너무 잘 일치하고 프로그램이 새로운 데이터에 쉽게 적응할 수 없게되면 과적 합이 발생합니다.

이제 기술적으로 과적 합은 너무 많은 데이터 샘플의 존재가 아니라 너무 많은 데이터 포인트의 대관식으로 인해 발생합니다. 그러나 데이터가 너무 많으면 이러한 유형의 문제에 기여할 수 있다고 주장 할 수 있습니다. 차원의 저주를 다루는 것은 전문가들이 IT 시스템에 공급하는 것을 정확히 찾아 내려고했던 것처럼 초기 빅 데이터 프로젝트에서 수행 된 것과 동일한 기술 중 일부를 포함합니다.

결론은 빅 데이터가 회사에 큰 도움이되거나 큰 도전이 될 수 있다는 것입니다. 이것의 한 측면은 회사가 올바른 데이터를 가지고 있는지 여부입니다. 전문가들은 모든 데이터 자산을 단순히 호퍼에 덤프하고 그러한 방식으로 통찰력을 얻는 것이 바람직하지 않다는 것을 알고 있습니다. 새로운 클라우드 네이티브 및 정교한 데이터 시스템에서는 더 정확하고 정확한 데이터를 얻기 위해 데이터를 제어 및 관리하려는 노력이 필요합니다. 데이터 자산을 효율적으로 사용합니다.